Hikaru Fujita
2023-03-02CVLチーム
はじめに
こんにちは、東京大学情報理工学系研究科コンピュータ科学専攻修士一年の藤田光と申します。私は6週間LINE AIカンパニーのComputer Vision Labチーム(CVL) Virtual Humanユニットでインターンシップに参加させていただき、研究活動を行いました。今回私が期間中に取り組んだ多視点画像による光源環境の推定と、それによる編集可能なNeRFに向けた研究と実験についてご紹介します。
問題背景
近年NeRF[1]をベースとして多視点の画像から三次元のvolumetricな表現を学習する手法が多く研究されています。これは三次元空間内の各点の輝度を推定することで任意の視点の画像をvolume renderingするというのが主な手法ですが、空間内のすべての点を同様に扱うためオブジェクトごとに認識されているわけではなくオブジェクトを移動・追加させたり、不要なオブジェクトを消すことが困難です。いくつかの研究[4]ではオブジェクト毎に表現を学習することで編集が可能なNeRFベースのモデルが考案されていますが、どこか出力された画像は不自然に見えるものもあります。この原因は