【インターンレポート】 独立低ランク行列分析を用いた音源分離・残響除去

はじめに

LINE株式会社の 2020 年度夏季インターンシップに参加しました中嶋 大志と申します。普段は東京都立大学大学院で音源分離に関する研究をしています。
今回のインターンシップでは LINEのData Labs の Speech チームに所属し、 Robin Scheibler さんにメンターになっていただきました。

人間には複数の人が同時に発話している状況でも、自分が聞きたい発話だけを聞き取る能力があります。これはカクテルパーティー効果と呼ばれています。
音源分離とはこのカクテルパーティー効果を機械で実現する研究です。音源分離には様々な応用が期待されています。
代表的な応用例はスマートフォンやスマートスピーカーなどの音声入力機器です。
例えば、子供たちが騒いでいたり、テレビの声があるようなリビングでも自分の声だけを聞き取ってくれればとても便利です。

しかし、会議室やリビングのような閉じた環境で音声を録音すると、残響が含まれます。
仕事で議事録を作るために会議の音声を録音して後で聞いてみたものの、音がぼやけて聞きづらいという経験はないでしょうか。
このように残響は音声の明瞭度を下げ、人間にとっての聞きやすさのみならず、音声認識の性能までも劣化させます。
そこで、残響除去と呼ばれる研究も盛んに研究されています。

今回のインターンシップでは、音源分離と残響除去を同時に行う手法について研究しました。

問題設定

音源分離

音源分離では複数の音が混ざった信号から、混ざる前の元の信号を推定します。
このとき、元の信号に関する情報(音の到来方向、音の位置など)は得られないことがほとんどです。
そのため、音源分離は数学的に困難な問題です。音源分離の難しさを大雑把に説明します。
例えば、「 5 + 5 を計算してください」と聞かれると 10 と簡単に計算できます。
しかし、「足して 10 になる数字を求めてください」と聞かれると答えは一つに決まりません。
2 + 8 かもしれないし -2 + 3 + 4 かもしれません。
これと同じようなイメージで、音源分離は混ざった後の音だけが与えられて、混ざる前の音を推定する必要があるため、とても難しい問題です。

そのため、「混ざる前の信号はある性質を持つはずだ」という仮定を用いることでこの問題を解きやすくする必要があります。
音源分離の代表的な手法に独立成分分析が挙げられます。
独立成分分析では混ざる前の信号がそれぞれ統計的に独立である、という仮定を用います。
この仮定に基づき、分離した信号が統計的に独立になるように元の信号を推定する手法です。

本研究では、この独立成分分析の発展手法を用いました。

残響除去

残響除去は、過去の音声信号から残響成分を推定して引き算することで実現できます。
しかし通常は、どこからが残響でどこまでが残響でないか、という情報が事前にわかりません。
そのため、先の音源分離と同様にとても難しい問題です。

そこで、ある時点での音声信号の相関に着目して残響成分を推定します。
一般的に音声信号は時々刻々と変化するため、ある2つの時点での信号の間には相関がありません。
しかし残響を含んだ音声信号では、部屋の反射などで遅れて観測される信号の影響があるため、相関が発生します。
この相関を推定できれば、過去の信号と相関がある場合は残響成分、ない場合は直接音として残響成分だけを除去できます。
この推定方法として、 weighted prediction error (WPE) [Nakatani2010] を用いた手法が代表的です。
WPE では線形予測を用いて残響成分を予測し、残響除去を行います。 詳しくはPython で学ぶ音源分離 第9章NTT CS研の資料などをご覧ください。

関連研究

本研究では、独立成分分析の発展手法である独立低ランク行列分析 (independent low-rank matrix analysis; ILRMA) に基づく手法を用います。
ILRMA は音源間の統計的独立性に加えて、スペクトログラムの低ランク性を仮定することで高精度な音源分離を実現します。
詳しくはこちら(原著論文著者による解説)などをご覧ください。

提案手法

ILRMA をさらに発展させた手法として、時間方向の相関を打ち消す ILRMA-T という手法が近年提案されました。
これによって、音源分離と残響除去を一つのアルゴリズムで同時に処理できます。

ILRMA-T では残響除去フィルタと呼ばれるパラメータを更新することで音源分離・残響除去を行います。
従来の研究では、 iterative projection (IP) [Ono2011] と呼ばれる手法を用いて更新していました。
しかし、 IP は逆行列演算を必要とするため、計算量が大きいという問題がありました。
それに対して近年、 ISS [Scheibler2020] と呼ばれる逆行列演算を必要としない推定手法が提案されています。
そこで、本研究では ILRMA-T の分離行列推定に ISS を適用した新しい手法 (以下、 ILRMA-ISS) を提案しました。
これによって、従来の IP を用いた ILRMA-T (以下、ILRMA-T-IP) よりも高速な更新が期待されます。
さらに、残響除去フィルタ更新式の中に、 WPE の更新式を特殊形として含むような新たな更新式を導出しました。

約300の音声データに対してシミュレーション実験を行い、分離性能 (SDR) を計測しました。
その結果、 ILRMA-T-ISS は ILRMA-T-IP と同程度の性能でありながら、計算時間を大きく削減できたことを確認しました。
また、 ILRMA-T が ILRMA よりも優れた分離性能が得られました。
このことから、残響除去が音源分離の性能向上に貢献することが示唆されます。

まとめ

私がインターンシップで取り組んだ音源分離・残響除去手法について紹介しました。
ILRMA-T と呼ばれる音源分離・残響除去手法を改善し、従来よりも少ない計算時間で同等の性能を達成しました。
また、残響除去によって音源分離の性能も大幅に改善できることを確認しました。

おわりに

新型コロナウイルス感染拡大のため基本的にリモートでのインターンシップになりました。
これまで経験のないような状況で、お忙しい中時間を割いて頂き貴重な機会をくださった社員の皆さんに感謝いたします。
特に、メンターである Robin Scheibler さん、戸上 真人さんには毎日 Slack や Zoom で議論させて頂き、楽しくかつ濃密に研究できました。
また、直接お会いすることはできませんでしたが、 Speech チームの社員・インターン生の皆さん、人事の皆さんにも大変お世話になりました。
Speech チームでのオンライン飲み会で知った codenames というオンラインボードゲームがとても面白かったのでおすすめです! 短い間でしたがとても価値のある経験になりました。

参考文献

  • [Kitamura2016]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Language Process., vol. 24, no. 9, pp. 1622–1637, 2016.
  • [Nakatani2010]: T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and B. Juang, “Speech dereverberation based on variance-normalized delayed linear prediction,” IEEE/ACM Trans. Audio, Speech, Language Process., vol. 18, no. 7, pp. 1717–1731, 2010.
  • [Ikeshita2019]: R. Ikeshita, N. Ito, T. Nakatani, and H. Sawada, “Independent low-rank matrix analysis with decorrelation learning,” in Proc. WASPAA, Oct. 2019, pp. 288–292.
  • [Ono2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in Proc. WASPAA, 2011, pp. 189–192.
  • [Scheibler2020]: R. Scheibler and N. Ono, “Fast and stable blind source separation with rank-1 updates,” in Proc. ICASSP, 2020, pp. 236–240.