Yuto Masumoto
2022-09-16Computer Vision Labチーム
1. 初めに
こんにちは、東京大学大学院情報理工学系研究科コンピュータ科学専攻の修士1年の増本雄斗です。研究室では自然言語処理を専門に研究をしています。今回、LINEでの就業型エンジニアリングインターンシップに参加し、AI開発室のComputer Vision Lab チーム(以下、CVLチームと表記)での取り組みを紹介したいと思います。本記事では、LINEでのインターンがどのようなものであったかを私の取り組みを紹介しつつ伝えられれば、と思っております。
2. インターン課題と目的
背景
近年のVision&Languageモデリングは、大規模に画像とテキストを両方用いた学習により、画像からのテキスト、テキストから画像といった高品質な生成が可能となりました。具体的には、画像生成においては、テキストから任意の画像を生成するOpenAIのDALL・E[1]や、商用利用可能なStable Diffusionモデル[2]などが公開されており、その生成画像の品質の高さに注目を集めています。一方で、テキスト生成においては、画像を入力としてその説明文を生成する、Imga