AIカンパニー内に新たに設置された「Computer Vision Lab」が目指す未来

2021-12-22

2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「DEVDAY21 +Interview」では、登壇者たちに発表内容をさらに深堀り、発表では触れられなかった関連の内容や裏話などについてインタビューします。今回の対象セッションは「LINEのコンピュータビジョン研究－その現状と将来」です。

音声認識や音声合成、自然言語処理などのAI技術について研究開発を進めているLINE AIカンパニーは、画像認識に特化したR＆D部門である「Computer Vision Lab」を2021年7月に立ち上げました。Computer Vision LabはAI活用における画像認識に関連した課題を事業横断的に解決することが大きな役割です。ここでは、チームマネージャーの井尻善久とリサーチャーの岡本大和に、Computer Vision Labの取り組みや現状のAIにおける課題、そしてAIの未来などについて語ってもらいました。

「AIの総合格闘技」で課題に立ち向かう体制を整えたLINEのAIカンパニー

──LINEのAIカンパニーにおいて、Computer Vision Labが新設された背景や役割について教えてください。

井尻：AIで解決すべき問題として、たとえば音声認識や音声合成、自然言語処理があります。これらの領域について、LINEは大きな強みを有しています。しかし、同様にAIに大きな期待が寄せられている画像認識については、AIカンパニーでは十分にケアできていませんでした。

LINEはメッセージのやり取りに使えるスタンプを販売していたりアプリ内に広告が表示されたりと、画像は重要な要素です。こういったことを考えると、AIカンパニーとしても画像領域を避けて通るわけにはいきません。

さらに攻めの観点で考えると、音声や言語処理に加えて画像までカバレッジを広げることができれば、成長オプションの拡張にもつながります。そこで画像認識に特化したR&D組織であるComputer Vision Labを立ち上げました。

──Computer Vision Labが現在取り組んでいる研究内容を教えてください。

井尻：まず1つ目はOCRです。特に画像と自然言語処理技術の融合による高精度化・高機能化に向けた取り組みを進めています。

2つ目はコミュニケーションテクノロジーとしてのバーチャルヒューマンあるいはアバターです。たとえばLINEアプリを使ってトークする際、自分の代わりにバーチャルヒューマンを使ってメッセージを伝えることができれば、表現に別の軸を持たせることができます。例えば、表現に迷うようなメッセージを送る際、猫の着ぐるみのキャラクターを使って雰囲気を和らげ、少しかしこまるようなときは恰幅のあるキャラクターで箔を付けるなどといった形です。

このようにバーチャルヒューマンを用いてコミュニケーションする、あるいはPRエージェントとして何かを訴求する際に使うといったことを考えています。

──AIの研究開発において、LINEのAIカンパニーにはどのようなアドバンテージがあると考えていますか。

岡本：社会課題やニーズが複雑さを増している現代では、1つのニーズを1つの技術で解決するといった、シンプルな構造ではなくなってきたと考えています。1つの課題に対して複数の技術を組み合わせて対応することも珍しくありません。

LINEのAIカンパニーは、音声認識や音声合成、自然言語処理、そしてComputer Vision Labで進めている画像認識の4つの領域に着手しているため、複数の技術を駆使しなければ解決できないような複雑なニーズに対しても、AIの総合格闘技で立ち向かうことができます。この点が我々の大きなアドバンテージであると考えています。

AIビジネスがなかなかスケールしない理由

──すでにAIは様々な領域で実用段階を迎えている一方、思うようにAI活用が進まないケースも少なくないと感じます。このAI活用を阻む理由として、どういったことが考えられるでしょうか。

井尻：ビジネス的な面で課題となっていることの1つとして、スケーラビリティが挙げられます。

たとえばお客さまに何らかの課題があり、それをAIで解決するのに3カ月を要したとしましょう。そこで得られた経験をもとにツールなどを開発して以降のプロジェクトの開発期間を短縮し、最終的にはツールの提供だけで開発はお客さま自身で行っていただくことにする。このような形でプロセスを効率化できれば、ビジネスはスケールしていくでしょう。

しかし現状のAIを用いたシステムなどの開発は、異なるお客さまの異なる課題に対峙するたびにゼロから開発していて、毎回多くのリソースを投下している状態です。これでは開発側の負担が大きく、必然的に開発コストも高止まりするためにお客様も絞られ、ビジネスをスケールさせることが困難です。

AIの市場を拡大し、より多くの人に使ってもらうことを考えたとき、このように開発プロセスの効率化が進まないことは大きな課題です。そこで重要になると考えられるのが、既存のモデルを別のドメインに応用する、ドメイン適応の技術です。

ソースドメインと呼ぶ過去のプロジェクトにおけるドメインで学んだエッセンスを、新しいドメインでうまく使い回すことにより、開発に必要なリソースをそぎ落としていくのがドメイン適応であり、これを実現できればAIビジネスもスケーラビリティを確保できるでしょう。

ドメイン適応に関する研究は様々なところで進められています。ただ同じドメイン適応であっても、ユーザビリティはまちまちです。たとえば特定のドメインでAIに学習させたことを別のドメインに適応させられるが、そのために新たに数万枚の画像が必要であるといったことでは簡易に適応させられるとは言えずユーザビリティは低いままでしょう。

一方、数枚の見本画像を登録して「最適化」と書かれたボタンを押すだけで要望を満たせる。こういったドメイン適応を実現できれば、既存のAIを即座に導入できるようになるほか、場合によっては技術者も不要になります。

現状、ユーザビリティの観点からは、ドメイン適応の技術は玉石混交の状態ですが、優れたユーザビリティをもつ技術が実現できれば、AIビジネスの市場規模は飛躍的に拡大するでしょう。

岡本：私が課題だと感じているのは、人々がAIに対して漠然とした恐怖や不安を持っていることです。その原因は、「原理や中身はよく分からないが、便利なので誰かが開発したAIを使っている」という状態にあるからだと推測しています。そうではなく、「このAIは私が私のために作ったAIだ」と、納得感と安心感のある状態へ変革させることが目標です。

そのためには、最後の1工程だけでもユーザーがAI開発に携わることが必要です。料理する際、フライパンで焼くなど少しだけでも自分の手を動かせば、自分が作った料理だと思えますし、安心感もあります。同様に、AIも最後のちょっとしたチューニングをユーザー自身で行い、自分なりの味付けができたなら、「これは私が作った私のAIだ」という安心感が生まれ、恐怖心や不安感を払拭できるのではないでしょうか。

その際、ドメイン適応の技術を利用し、すでに別のドメインで使われていたAIを用い、ちょっとしたカスタマイズで自らの課題解決に利用するといったことができれば、AIの裾野はもっと広がるでしょう。

マルチモーダルでAIは人間に近づく

──LINE DEVELOPER DAY 2021のセッション「LINEのコンピュータビジョン研究-その現状と将来」では、マルチモーダルが話題になっていました。このマルチモーダルがもたらすメリットについて教えてください。

井尻：AIを利用するということは、これまで人間が行っていた作業を機械にやらせようという試みですよね。その人間は、視覚や聴覚、触覚といった感覚、あるいは過去に学んだ事柄など、様々なものを組み合わせて作業を行っています。

これまでのAIは、視覚、あるいは聴覚などそのうちの1つだけを使って人のやっている作業の一部を自動化することが多かったように思います。しかし今後、人が行っていた作業を完全にAIが肩代わりし省人化するのであれば、複数のデータを入力に用いるマルチモーダルは、絶対に通らなければならない技術課題になると考えています。

マルチモーダルがもたらすメリットとして、分かりやすいのは文字の読み取りです。パターンとして文字を認識するだけでなく、自然言語処理の技術を組み合わせて文脈を理解して類推することができるようになれば、認識精度をさらに高められます。

そのほかにも、先ほどお話したバーチャルヒューマンの実現や、ブログ記事や広告といったクリエイティブの生成、あるいは社内文書のアーカイブ化と検索といった業務効率化など、幅広い領域でマルチモーダルはベネフィットをもたらすものだと考えています。

岡本：マルチモーダルがもたらすメリットをシンプルに表現するのであれば、「AIが人間に近づく」の一言に尽きます。現在のAIは画像AIなら画像、音声AIなら音声と、特定の情報の処理に特化しています。

しかし人間は、たとえば外見やにおい、硬さで野菜が腐っているかどうかを判断するなど、複数の情報を組み合わせて判断することが一般的です。また電車で隣に座った人が友人であるかどうかが分からないとき、顔をまじまじと見られない場合は声や振る舞いから判断するでしょう。マルチモーダル化により、AIでも人間のように判断することができるようになります。特定の情報の利用に制限がかかった際、代わりにほかの情報を組み合わせて判断するなど、AIの適用領域拡大にもマルチモーダル化はメリットがあると考えています。

人間の仕事をAIが肩代わりするベストプラクティスを生み出していく

──今後、AIはどのように発展していくと思われますか。

井尻：マルチモーダルによる全面AIにより、我々の身の回りの人力最適化プロセスが機械化されていくと思っています。つまりプロセスのデジタル化です。

現状ではタスク的にもプロセス的にも分断されたAIであり、一部の工程のみの自動化に留まっています。そのため総合的なソリューションにはならず、1人削減するといったところにまで到達できないことが少なくありません。

しかし将来は、業界や業種、タスク、プロセスの観点から着実に自動化され、ある臨界点を超えたところで1人の担当していた業務を完全にAIが肩代わりできるようになり、人を煩わしい業務から開発できるようになるでしょう。

では、なぜそれが現状で実現できないのか。その理由の1つとして挙げられるのは、単純にAIの能力が人間に及んでいない、精度的に人間のレベルにまで達していないことです。人間の能力は、マルチモーダルだからこそ高いレベルを実現している側面があります。

たとえば視覚で認識する際、聴覚や嗅覚を塞いでいるわけではないですよね。一方でマルチモーダルではないAIは視覚だけで認識することになります。そのように考えると、五感をフルに使う人間と、1つの感覚だけで判別しようとするAIを比べるのはアンフェアだということも言えるわけです。そこでAIを人間と同じ土俵に上げるための技術がマルチモーダルであり、これによってAIは大幅に進化するでしょう。

岡本：私がキーワードになると考えているのは「インタラクション」と「コネクト」です。

インタラクションが意味するのは、人間とAIが会話し、情報交換や指示、カスタマイズができるようになることを意味します。残念ながら現状のAIは、データの入力やパラメーターの設定といった無機質なインタラクションしかできません。

人間同士の会話のように言葉でAIに指示したり、あるいは「いい感じだよ」「それはダメ」といったフィードバックによってAIが最適化される、そういった未来が到来すると思っています。

コネクトとは、AIが知的処理を行う際、ありとあらゆる情報にアクセスし、有益なヒントを取捨選択して見つけ出し、高度な判断を下すことを意味しています。IoTや5Gなどといった技術により、人やモノが次々とコネクトしています。これにより、AIが判断する際に利用できるヒントが増え、臨機応変かつ高度な知的処理が実現していくでしょう。

また、ぜひ伝えたいのはAIは進化しても我々の味方であるということです。

インターネットが普及してパソコンを1人1台持つことが当たり前になり、さらに現在ではスマートフォンによっていつでもつながるようになりました。そのため10～20年前と比べると、現在は触れられる情報量が爆発的に増えています。このように膨大な情報にアクセスし、適切に処理することをAIがサポートする、そういった未来を目指したいと思っています。

──最後に、LINEのAIカンパニーは何を目指しているのか、教えてください。

井尻：我々の強みであるマルチモーダルにより、本当に人間の仕事をAIで置き換えるようなベストプラクティスを作り出していく、それが我々のすべきことだと考えています。

採用情報

LINE株式会社では一緒に働くエンジニアを募集しています！
今回のインタビューと関連する募集ポジションはこちらです。

コンピュータビジョンエンジニア・リサーチャー（画像認識領域） / AIカンパニー