Yuta Nishikawa
2022-11-24Speechチーム
初めまして。奈良先端科学技術大学院大学修士1年の西川勇太です。2022年夏にLINE株式会社の就業型インターンシップに6週間参加しました。インターンシップではAI開発室のSpeechチームに所属し、「BERTの知識蒸留によるEnd-to-End音声認識の性能向上」のテーマで研究を行いました。本インターンシップの内容は学会に投稿予定のため、本記事ではその一部の内容のみを紹介させていただきます。
問題背景・目的
近年、End-to-Endモデルによる音声認識手法が目覚ましい成果を上げており、注目を浴びています。この手法は、従来の音響モデル、言語モデル、発音辞書を組み合わせて構成されるモデルと比較して、シンプルなアーキテクチャでかつ、高い精度での推論を可能とします。このEnd-to-End音声認識モデルは大きく分けて自己回帰型のモデルと非自己回帰型のモデルの2通りのモデルがあります。まず、自己回帰型のモデルはAED(Attention Encoder-Decoder)モデル[1][2]やRNN Transducer[3][4]などがありまず。これらの自己回帰型のモデルは、各トー クン間の依存関