「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話

2022-07-14

2022年5月24日より、LINE株式会社は「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始しました。「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech（音声認識）」の音声認識AIを活用して、録音した声をテキストに変換します。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単に利用可能です。

「CLOVA Speech」は、近年注目を集めているSelf-Supervised Learning（自己教師あり学習）を利用した、最先端のEnd-to-End音声認識を採用しています。そして複数名の話者の区別を行う話者分離の技術には、話者ダイアリゼーション技術の国際コンペティション「DIHARD3（2021年）」にて世界3位の性能評価を獲得した、高い研究成果を活用しています。

今回は、音声認識技術の開発を担当するSpeechチームの4名にインタビュー。用いている技術の特徴や「CLOVA Speech」開発の裏話、チームで働く楽しさなどを聞きました。

＜インタビュイー情報＞
木田祐介（Speechチームマネージャー）
ミヒャエル・ヘンチェル（Speechチームリサーチャー）
市村収太（Speechチームリサーチャー/AI Dev Kyotoチームマネージャー）
中込優（Speechチームリサーチャー）

データやコンピューティングリソースが潤沢にある。LINEの開発体制の強み

――まずは、みなさんの自己紹介をお願いします。

木田：Speechチームのマネージャーをしている木田です。私は学生時代からずっと音声認識の研究開発に携わっていて、2020年5月にLINEに入社しました。

ミヒャエル：ミヒャエルです。出身はドイツで、数年前から日本に住んでいます。過去には奈良先端科学技術大学院大学で自然言語処理の研究室に所属し、博士号を取得しました。これまで、複数の企業で音声認識に関連した業務に携わり、2021年12月にLINEに転職しました。

市村：市村といいます。LINEの End-to-End音声認識エンジン（NEST）プロジェクトの開発リーダーを担当しています。「CLOVA Note」はNESTプロジェクトの成果のひとつです。私はLINEの入社前も、十数年ほど音声認識の開発に従事していました。LINEに入ってからは、音声認識モデルの開発に特に注力しています。

中込：中込です。私は市村さんのもとでNESTの音声認識モデルの開発に従事しており、音声認識の誤り率を下げる研究をしています。学生時代は早稲田大学の大学院で音声分野の研究をしていました。そのノウハウをLINEの業務で活かしています。

――今回のインタビューでは、「CLOVA Note」で用いられているLINE CLOVAのAI技術「CLOVA Speech」の音声認識AIの開発エピソードを伺います。昨年に開催された「LINE DEVELOPER DAY 2021」では、セッション「End-to-End音声認識技術の実用化とAI音声記録サービス『CLOVA Note』」において「End-to-End音声認識技術の精度向上のためには、膨大な量の話し言葉のデータが必要」だと語られていました。

木田：そうですね。精度向上のため、LINEは大量にデータを収集する体制を構築しています。具体的な収集方法については企業秘密もあるためお話しできませんが、たとえば特定の企業や機関からデータを購入したり、音声や動画を取り扱うLINEプロダクトのデータを活用したりと、さまざまな方法で音声の資源を集めてAIの学習に使っています。

とはいえ、やみくもにデータを集めれば音声認識の精度が向上するわけではありません。人間が書き起こした正解データもセットで用意する必要があります。LINEのグループ会社には書き起こしの作業を専門にしている組織があるのですが、それらのチームからデータ供給を受けており、正解データを用意する体制も整っています。

木田祐介（Speechチームマネージャー）

木田祐介（Speechチームマネージャー）

さらに、学習のためには大量にGPUなどのコンピューティングリソースを用意する必要もあるのですが、LINEにはインフラ構築を専門とするチームがあり、彼らが基盤構築を行っているため社内のエンジニアがインフラリソースを簡単に使用できます。社内に優秀なエンジニア・リサーチャーが多数所属していることに加えて、データやコンピューティングリソースを容易に調達できる体制が整っていることなどが、LINEのAI開発の大きな強みです。

End-to-End音声認識技術の精度向上のために

――次に「CLOVA Speech」で用いている音声認識の技術についても伺いたいです。End-to-End音声認識の、Self-Supervised Learningという手法を用いているそうですが、この技術は既存の手法と比較してどのような点が優れているのでしょうか？

市村：従来のEnd-to-End音声認識では、AIに学習をさせる際に、常に音声と正解ラベルのペアが必須でした。両方がセットになっている必要があるため、品質の良い学習データを集めることが難しく、精度を向上させるには大きな労力がかかりました。

一方のSelf-Supervised Learningは、ラベルなしの音声データを大規模に利用する機械学習の手法です。Self-Supervised Learningは大きく分けてPre-trainingとFine-tuningという2つのフェーズがあります。Pre-trainingのフェーズでは、音声の一部を意図的に隠してその部分を周りの情報から予測させる、いわば穴埋め問題を解かせるようモデルを学習します。そうして学習したモデルを初期モデルとして、次のFine-tuningのフェーズで通常通り音声からテキストを予測するようモデルを学習します。

市村収太（Speechチームリサーチャー/AI Dev Kyotoチームマネージャー）

音声の書き起こしは時間やコストがかかるのですが、Pre-trainingは音声データだけで学習ができます。そのため、我々がこれまでに収集したものの書き起こすことのできなかったデータも大いに活用することができます。つまり、Self-Supervisedはデータをたくさん持っている企業と相性が良く、我々がこの技術に着目した理由もそこにあります。

――End-to-End音声認識技術の開発で工夫したことや大変だったことはありますか？

市村：End-to-End音声認識は比較的最近になって登場した技術で、英語を対象とした先行研究はそれなりにあるものの、日本語を対象とした先行研究は少ないのが現状です。また、英語は文字種がアルファベットと数字くらいですが、日本語の文字種は平仮名やカタカナ、漢字、英数字など多種多様で同音異義語も多いです。

果たして、英語ほどの精度を日本語でも出せるのか、不明瞭な状態から研究を開始しました。先行研究が少ないためかなり試行錯誤しましたが、結果的に精度を改善できたことに、非常に達成感がありました。

中込： Self-Supervised LearningにおいてFine-tuningを行なった際、学習データの中に品質が悪い音声や誤った正解ラベルが存在し、効果的に学習できないことがありました。そのため、それらの品質や正誤をチェックする必要があるのですが、学習にはトータル数千時間ほどの膨大な量の音声データを用いるため、人間がすべてを確認するのは不可能です。このような課題を解決するため、品質の悪いデータや正解ラベルの誤りを自動的に判定して削除するようなクリーニング処理も実装しました。

――前例の少ない技術だからこそ、その研究に取り組む意義は大きいですね。

わずか3か月ほどで、句読点付与の課題を解決できた理由とは

――「CLOVA Note」では、書き起こしテキストに対して、精度の高い句読点付与を行うのも特徴です。多くの音声認識アプリでは、句読点付与があまりうまくできないイメージがあるのですが、どのような点に実現の難しさがあるのでしょうか？

ミヒャエル：話し言葉向けの句読点付与のモデルを開発する際に、私たちは自然言語処理の手法として、Self-Supervised Learningの一種であるBERTを用いています。この手法も、ラベルなしの文章データを大量に利用します。

このときに、どのような種類のデータを使うのかが非常に重要です。たとえば、Wikipediaなどのテキスト情報を集めて機械学習のモデルを学習させても、話し言葉の句読点付与の精度はなかなか向上しません。なぜなら、書き言葉と話し言葉とでは、文章の特性がそもそも異なるためです。

ミヒャエル・ヘンチェル（Speechチームリサーチャー）

さらに、学習に用いるデータはなるべくクリーン（ノイズ情報のない綺麗なデータ）である必要があります。つまり、なるべく話し言葉そのままの文章に近く、かつ綺麗なデータを大量に集めなければなりません。

テキストだけで数十〜数百ギガバイトくらいの規模のデータを学習に用いなければ、話し言葉の書き起こしに適切に句読点を付与するモデルは開発できません。また、それほど大量の文章データを処理するとなると、膨大な量の計算のためのマシンリソースが必要になります。

こうしたデータ収集やマシンリソース調達を実現できる会社は少なく、ここにインタビュー冒頭で木田さんが述べたようなLINEの体制の強みがあります。LINEでは専門のチームがそれらの作業を担ってくれるため、リサーチャーは本質的な業務に集中でき、研究開発の効率が非常に良いのです。

――句読点付与のモデル開発において、印象に残っているエピソードはありますか？

ミヒャエル：私はもともと、前職でも句読点付与のモデル開発を行っていました。そして、昨年の12月半ばにLINEに入社し、研究開発を始めたのですが、その際に前任者が残した「句読点付与の精度を向上させるために解決すべき課題のリスト」をもとに仕事を進めていくことになりました。

前職で培った知見やノウハウがあったため、リストアップされている課題の原因が、比較的すぐに特定できたんです。そのため、モデルの開発や改善がかなり効率よく進み、3か月ほどでモデルのリリースまでたどり着きました。

木田：とてつもない開発スピードでしたね。ミヒャエルさんが前職で培った専門性と、LINEが解きたかった技術課題がぴったりマッチしていました。その結果、短期間で大きな成果を出せたのだと感じます。

基礎研究からプロダクト開発まで幅広く担えるチーム

――そうした数々の工夫を経て2022年5月に「CLOVA Note」をリリースしたわけですが、開発に携わって感じたやりがいを教えてください。

中込：「CLOVA Speech」の開発において、音声認識の誤り率を下げることが自分のミッションでした。日々、一喜一憂しながら研究に注力していましたが、その成果が「CLOVA Note」というプロダクトに結実したことに大きな達成感があります。

さらに、ユーザーの方々にさまざまな環境で音声認識を試していただいたことで、改善すべき部分も見えてきました。ユーザーからのフィードバックを得つつ、それを研究開発に活用していく好循環を今後も回していきたいです。

中込優（Speechチームリサーチャー）

市村：私は、自分の作ったプロダクトが世の中で使われることにモチベーションを感じるタイプです。そのため「CLOVA Note」をリリースして各種メディアでも取り上げていただき、多くのユーザーから反応を得られたことに、やりがいを覚えました。プロダクトに対してポジティブな意見とネガティブな意見の両方が寄せられていますが、それらの声を素直に受け止めて、改善に生かしたいです。

ミヒャエル：私は前職時代、自分の研究成果が論文や特許などになる仕事をしていたのですが、正直なところ不満を抱えていました。ユーザーに使ってもらえるプロダクトを開発できなかったからです。だからこそ、LINEに転職して多くの人々に自分が携わったプロダクトを届けることができ、嬉しく思います。そして、市村さんや中込さんも言われたように、ユーザーからの声をさらなるプロダクト改善につなげたいです。

木田：実のところ、私たちは「CLOVA Note」をリリースする際にすごく緊張していました。自分たちは「かなり精度の高い音声認識を実現できた」と自信を持っていましたが、世の中の人々が本当にそう感じてくれるかは未知数だったからです。

当たり前の話ですが、人間は他の人が話している言葉を正確に理解できます。だからこそ、よほど高精度に音声認識できるプロダクトでなければ、人間が聞き取る精度に及ばないため「使いものにならない」と受け取られてしまうんです。しかし、SNSなどの反応を見ると、ポジティブな意見が非常に多かったです。良い意味で驚きましたし、自分たちのやってきたことは正しかったと安堵しました。

――今後、「CLOVA Note」でどのような機能を実装していきたいですか？

木田：SNSでの反応を見ていると、「『あのー』とか『えーと』などのフィラー（言いよどみ）をカットしてほしい」「書き起こすだけではなく、要約もできる機能がほしい」「翻訳の機能がほしい」などの意見が出ています。こうした意見を取捨選択しつつ、プロダクトに実装していきたいです。

また、LINE社内には音声認識だけではなく自然言語処理や画像処理などさまざまなAI技術の研究をしているチームがあるため、それらの技術を「CLOVA Note」に反映させていき、LINEのAI統合プラットフォーム的なプロダクトにしたいという野望もあります。

――その未来が実現すれば、「CLOVA Note」がより便利なプロダクトになりそうです。最後に、Speechチームへの参画を考えている方にメッセージをお願いします。

木田：LINEのSpeechチームでは、基礎的な研究からプロダクト開発まで、幅広い業務を担うことができます。一方で、まだまだチームのメンバーが足りておらず、手をつけられていない領域も数多く存在します。だからこそ、このインタビューを読んで興味を持ったエンジニアやリサーチャーは、ぜひ私たちのチームに参画してほしいです。

市村：Speechチームには、経験年数や年齢などに関係なく、誰もが自由に意見を言える風通しの良い環境があります。また、やる気と実力があれば、大きな裁量が与えられます。たとえば、中込さんはまだ新卒2年目ですが、最先端の研究領域を任されています。チームに参画していただければ、きっと楽しい研究・開発生活を送れるはずです。

中込：LINEは業務で使えるデータが豊富だったり、GPUのリソースが潤沢だったり、優秀なリサーチャーやエンジニアと一緒に仕事ができたりと、働きやすく成長できる環境が整っています。この職場で仕事ができていることに、私自身は大きな満足感を覚えています。

ミヒャエル：LINEはスキルの高いメンバーが集まっているので、最先端の技術に触れたいとか、多くのユーザーに利用されるプロダクトを開発したいと考えている方にとって、素晴らしい環境だと思います。

これほど優秀なメンバーが集まっている企業は、日本だけではなく世界規模で見ても稀有です。最後に、これは個人的な夢なのですが、将来的には「CLOVA Note」を日本だけではなく世界各国にも展開し、より多くの方々に使ってもらえたらいいなと思っています。

――相当に充実感を持って働ける環境ですね。今回はありがとうございました。

採用情報

LINE株式会社では一緒に働くエンジニアを募集しています！
今回のインタビューと関連する募集ポジションはこちらです。

音声処理リサーチャー・エンジニア（音声認識・音声合成等） / AIカンパニー