ICRA2021に位置合わせについての共同論文が採択されました

AIカンパニー AI Researchチーム所属の藤原研人です。弊社が国立情報学研究所(NII)と共同で運営している研究部門、ロバストインテリジェンス・ソーシャルテクノロジー研究センター(CRIS)の活動の一貫として、現在大阪大学の松下研究室と共同研究を進めています。

この度、その成果の一部がICRA2021に採択されたので、弊社AI Researchチームの活動内容と共に紹介させて頂きます。 

ICRA2021

ICRA(International Conference on Robotics and Automation)は、IROS(International Conference on Intelligent Robots and Systems)と並びロボティクス分野を代表する国際会議で、ロボティクス分野の新技術や関連するコンピュータービジョンの研究が発表されます。本年は5月30日から6月5日まで中国・西安とオンラインでのハイブリッド形式で開催されました。今回は松下研究室のFeiran Li氏、藤原、松下康之教授の共著論文が採択されました。本ブログではその概要を解説いたします。詳細については、以下論文リンクをご覧ください。

ロボット…?ビジョン…?

コンピュータービジョンとは、視覚から得られる情報を機械に理解させる、という分野です。人間が受け取る情報8割以上が視覚からということも言われている様に、ロボットも周辺環境と自身の関係性を理解しながら作業しなければなりません。周囲にお構いなく、ガンガン物を壊しながら仕事をするロボットなんて嫌ですよね。人間に寄り添うAIを実現するためには欠かせない研究分野です。

今回採択された論文は,「位置合わせ」という問題を題材にしております。位置合わせとは、二枚(以上)の画像や物体の対応関係を求め同じ姿勢に統合する、という問題です。普通の2次元の画像の場合だと、複数の画像の特徴的な点を合わせてパノラマ画像にするため、3次元の形状データの場合だと、様々な角度から撮像した形状を一つの物体に統合するためなどに利用します。他にも、地図と自分の周辺の情報を照らし合わせ、自分がどこにいるのかを知るためなどにも使われています。位置合わせは、コンピュータービジョンにおいて基礎的な技術の1つです。

位置合わせの例:ずれた状態に変換を施すことで姿勢を統合

研究内容

この論文では、必ずしも全ての点が対応しない2つの点の集合(点群)の位置合わせを想定しています。

これまでの研究において、主に2通りの方法で位置合わせが実施されてきました。1つ目の方法は最近傍点を対応する点として明示的に利用し、徐々に誤差を縮める移動をさせる幾何的な方法です。2つ目は2つの点群それぞれを分布として扱い、二つの分布間の情報量(ダイバージェンス)を最小化する変換を求める統計的な方法です。

幾何的な方法は対応しない外れ値の除去が容易であり、統計的な方法は点に様々なノイズが含まれている場合に強い、という特徴がそれぞれの手法にあります。しかし、これら2方法はそれぞれ異なった発展を遂げてゆき、別の物として扱われることが多くなっています。お互いのメリットを生かすためどうにかしてこれらを統合できないか、というのが研究の出発点です。

ここで、統計的なアプローチにおいて、点群を示す分布をf-ダイバージェンスを用いて表現し、幾何的な方法の式と見比べると、前者はリーマン多様体上のフィッシャー情報計量を距離、そして後者はユークリッド空間の距離としている点のみ異なり、二つは実質的には同じ処理をしているということが示せることがわかりました。よっていずれかの空間への投影方法が定まれば、それぞれの距離を最小にする計算をすればよいということを突き止めました。さらに、f-ダイバージェンスの期待値が二つの分布のノイズの大きさの違いも含むため、最小化することにより、自動的にノイズ幅の推定もできることを示しました。

位置合わせの結果:2手法の良い点を生かし、外れ値とノイズが加わっても物体部分の姿勢が合うような変換が施された

最後に

LINEのAIカンパニーのAI Researchチームでは、コンピュータービジョンや機械学習の基礎技術の開発に取組み、事業化を目指して積極的に活動しています。

また、8月に開催される国内最大のコンピュータービジョン会議MIRU2021にも、LINEはスポンサーとして参加いたしますので、興味がありましたら是非お声がけください!