Masuyama Yoshiki
2019-04-22LINEの冬インターンシップに2カ月間参加しました升山義紀です。インターンシップではResearch Labsという部署に所属し、“複数人の発話を分離する技術”について研究を行いましたので、その内容を紹介します。
背景
人間には、複数人が同時に発話しているような状況でも自分の目的の発話を分離して聞き取る能力があり、この能力はカクテルパーティー効果と呼ばれています。このカクテルパーティー効果を機械で実現すること(音源分離)には、複数人同時発話時の音声認識性能の向上など多くの応用があります。
例えば、スマートスピーカーに二人の人が同時に話しかけてもきちんと聞き分けてくれたり、テレビをつけていても自分の声だけを聞き取ってくれたら便利ですよね。LINEのResearch Labsでもこれまで音源分離に関する研究を行ってきました(1)。
問題設定
今回は複数のマイクロホンを利用する多チャンネル音源分離、その中でも音声認識の前処理などで広く用いられている“ビームフォーミング”と呼ばれる技術を用いた手法を考えます。
ビームフォーミングでは、例えば音源