LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog

Blog


【インターンレポート】移動音源のためのマルチチャネル音源分離

名古屋大学情報学研究科博士前期課程1年の藤村拓弥です.2022年の夏から8ヶ月に渡り,Auido Signal Processing (ASP) チームのインターンシップ・アルバイトとして「移動音源のためのマルチチャネル音源分離」について研究を行いました.以下ではその内容について紹介します.

背景

音源分離とは,混ざった音を分離する技術です.この技術を使えば,スマートスピーカなどで,複数人の音声を同時に聞き取ることなどが可能になります.音源分離手法の中でも,複数のマイクロホンを用いるマルチチャネル音源分離手法は,頑健性と処理結果の歪みの少なさといった点で優れており,実応用でもよく利用されます.

しかしながら,これまでのマルチチャネル音源分離手法の多くは,音源が移動しないという仮定の下で,より良い分離方法の研究が進められてきました.そのため,話者や音源が動き回る場合には,分離性能が大幅に低下します.

これに対して,我々は新たに移動音源のためのマルチチャネル音源分離手法を提案しました.

関連研究

本記事では,音源分離を「混合信号から複数の音源を同時に推定する技術」,音源強調を「混合信号から1つの目的音源信号のみを強調する技術」とします(図1).それぞれ目的や用途が異なりますが,マルチチャネルの手法であれば,どちらの技術も音源が動かない仮定をする場合がほとんどです.

これに対して,2022年5月に移動音源を対象としたビームフォーミング手法が提案されました[Ochiai2023].ビームフォーミングは音源強調技術の1つであり,複数のマイクロホンから得られる空間的な情報(空間相関行列)を手がかりに,目的音源を強調します.

通常のビームフォーミングでは,音源が動かないことを仮定して,空間相関行列の時間平均から時不変な分離行列を推定します(図2-a).一方で,移動話者を対象としたビームフォーミングでは,attention weightを用いて,時変な分離行列の推定を実現しました(図2-b).

attention weightは,各時間フレームでの分離のために,どの時間フレームの空間情報が有用であるかを示す重みであり,self-attention networkから推定します.このattention weightによる重み付け平均によって,各時間フレームごとに適切な分離行列が得られます.移動話者を対象としたシミュレーション実験において,この手法の有効性が示されています.

提案法

ビームフォーミングにattention weightを導入することで,移動音源に対する音源強調が実現されました.そこで,我々は,attention weightの枠組みを応用し,移動音源に対する音源分離手法を2つ提案しました.

1つ目は,時変なビームフォーミングを複数回適用することで,音源分離を実現する,単純な手法です(この手法を以降ではATT-BFとします).2つ目は,代表的な音源分離手法である独立ベクトル分析 (Independent Vector Analysis: IVA) の拡張です(この手法を以降ではATT-IVAとします).IVAは,各音源信号間の独立性に基づき,反復アルゴリズムによって分離行列を推定する手法です.ATT-IVAでは,アルゴリズムにおける分離行列の更新式にattention weightを組み込み.時変な分離行列の推定を実現します.

実験

提案法の有効性を調査するために2つの実験を行いました.

① 音声の分離実験

2話者の音声を分離するシミュレーション実験を行い,提案法の分離性能を評価しました.

表1は実験結果です.moving-0は2人とも動いていない,moving-1は1人だけ動いている,moving-2は2人とも動いている状況を示しています.Mixtureは混合信号,TIV-IVAは従来の時不変なIVAであり,SDR [dB]は分離性能,WER [%]は音声認識におけるWord Error Rateを示しています.

実験結果では,ATT-BFとATT-IVAが移動音源に対しても十分な分離を実現していることが分かります.特に,ATT-IVAが高い性能を誇っており,moving-0においてもTIV-IVAの性能を上回ることが分かりました.

表1

moving-0

moving-1

moving-2

SDR↑

WER↓

SDR↑

WER↓

SDR↑

WER↓

Mixture

-0.15

72.2

-0.15

72.3

-0.14

74.0

ATT-BF

9.61

13.9

6.65

20.8

4.83

34.3

TIV-IVA

10.65

11.6

4.06

20.8

-0.02

54.9

ATT-IVA

13.54

11.3

10.78

13.1

7.65

27.7

② 音響イベント検出への応用

音響イベント検出 (Sound Event Detection: SED) は,人の声や足音,音楽といった音響イベントの発生を自動で検出する技術であり,見守りシステムなどへの応用が期待されています.SEDのタスクでは,様々な音響イベントが同時に発生する場合があり,音源分離による前処理が性能向上に有効であることがLINEの先行研究で示されています[Scheibler2021,Scheibler2022].しかしながら,以前の研究では,時不変な分離を用いており,移動する音響イベントに対する分離性能は低かったと考えられます.そこで,提案法による時変な分離がSEDの性能向上に有効であるかを,実際の収録信号を用いて,調査しました.

表2は実験結果であり,MIXは混合信号のみ,TIVは混合信号とTIV-IVAによる分離結果,ATTは混合信号とATT-IVAによる分離結果を用いて,音響イベントの発生を検出する手法です.TIV+ATTは,TIVとATTの予測結果を平均する手法です.まず,実験結果では,TIVとATTがMIXの性能を上回り,分離がSEDに有効であることが確認できました.また,実験結果を分析すると,ATTは,明らかな移動音源である"Walk"に対する検出性能が特に高いことが確認できました.ATTは高い分離性能を誇る一方で,過剰な分離や非線形処理による歪みが発生する場合があります.そのため,ATTよりもTIVの方が検出性能が高い場合も確認しました.これに対して,TIV+ATTは,TIV-IVAとATT-IVAの分離結果を組み合わせて用いることで,より高い性能を達成できたと考えられます.

表2
MIX
TIV
ATT
TIV+ATT
0.5559 0.5681 0.5706 0.5793

まとめ

「移動音源のためのマルチチャネル音源分離」というテーマで研究に取り組みました.本研究の内容は,国際会議に投稿中です.(注:本ブログ執筆後、INTERSPEECH2023に採択されました)

インターンシップ・アルバイトはリモートで実施しましたが,メンターのRobin Scheiblerさんと毎日のようにzoomやslackで議論させていただき,円滑に研究を進めることができました.企業と大学では,研究環境や内容が異なり,とても実りのある貴重な体験をすることができました.また,ASPチームでの懇親会にも何度か参加させていただきました.皆さんと交流できてとても楽しかったです.メンターのRobin Scheiblerさん,ASPチーム,人事の皆様,大変お世話になりました.

参考文献

  • [Ochiai2023]: T. Ochiai, M. Delcroix, T. Nakatani, and S. Araki, “Mask-based neural beamforming for moving speakers with self-attention-based tracking,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 31, pp. 835–848, Jan. 2023.
  • [Scheibler2021]: R. Scheibler, T. Komatsu, and M. Togami, “Multichannel separation and classification of sound events,” in Proc. EUSIPCO, Dublin, IRL, Aug. 2021, pp. 1035–1039.
  • [Scheibler2022]: R. Scheibler, T. Komatsu, Y. Fujita, and M. Hentschel, “Sound event localization and detection with pre-trained audio spectrogram transformer and multichannel separation network,” in Proc. DCASE, Nancy, France, Nov. 2022.