Blog - LINE ENGINEERING

Ryota Kaji

Computer Vision Labチーム

【インターンレポート】ストーリーを考慮したマルチシーンに基づく動画要約
Ryota Kaji2023-09-21
Computer Vision Labチーム
はじめにこんにちは、電気通信大学大学院修士一年の梶凌太です。普段は動画生成に関する研究を行っています。今回は６週間の就業型インターンシップに参加させていただき、Computer Vision Lab (CVL)チームで「ストーリーを考慮した料理動画要約」に関する研究活動に取り組みました。ここでは、インターンシップ中での自分の取り組みとその成果について報告します。背景近年、動画メディアは爆発的に普及していますが、動画は画像と比較して冗長であり、ユーザーの求めるシーン以外のものを多く含みます。長い動画から重要なシーンのみを要約してダイジェスト動画を作るタスクであるVideo summarizationは、このような背景のもと需要が高まっています。例えば料理動画などがその一例で、視聴するユーザの利便性を考えると、調理手順に関するところなどの見たいところ・気になるところのみを取り出したいという需要は高いです。ユーザーの欲しいシーンの描写をテキストで与えたときに、対応するシーンを抽出するタスクを考えると、料理動画はこのような観点で使いやすいため今回の研究対象としました。今回のインタ

1