INTERSPEECH2019 発表・聴講報告

LINE Research Labsの戸上、小松、升山(9月末までアルバイトとして所属)です。

LINEには海外カンファレンスや学会への参加を支援する制度があり、会社負担で学会に参加することが可能です。

今回は、音声処理における世界最大規模の国際会議である、International Speech Communication Association (ISCA)主催のINTERSPEECH2019に参加し、聴講と音源分離・音声強調技術に関する2件のオーラル発表を行ってきました。INTERSPEECHは今回で20回目となり、2010年には日本の幕張でも開催されました。今回のINTERSPEECH2019の投稿数は2180件となっており,採択率は49.3%でした。投稿数は過去最高となっており、歴代最多の年よりもさらに今年は20%ほど増加しているとのことです。AI スピーカなどの音声プロダクトが普及する中で,音声処理の研究が加速している様子を強く感じました。NAVERとLINEはINTERSPEECH2019のゴールドスポンサーになっており、今回、ブースも出展いたしました。

会場の様子。世界中の音声処理研究者が一同に
スポンサー企業の一覧  
ブースの前で記念写真 NAVERの参加者の方々とともに

また、本会議に合わせて、社内のDeveloper Relations、ブランドデザイン部門の協力の元、LINEのAI関連部署の紹介用冊子を作成し、配布させていただきました。

LINE Research Labsの紹介冊子 Possibility of AI Technology

今後も、様々な国際会議・国内会議で配布していきたいと思います!

会場の雰囲気

 今回会場となったのは、AustriaのGraz(グラーツ)という田舎町。「グラーツの市街 – 歴史地区とエッセンブルグ城」として世界遺産にも登録されており、中世ヨーロッパの街並みが広がるとても美しく落ち着いた街です。

グラーツ市街のながめ

今回のINTERSPEECHの会場も、開放的な会議場中庭でのレセプションパーティ、歴史あるコンサートホールでの晩餐会など、オーストリアの雰囲気を大いに感じながら研究者同士の交流を行うことができました。

会議場の中庭でのレセプションパーティ。
まるで道端でビールを飲んでいるようです 
Congress Graz Stefaniensaal(コンサートホール)での晩餐会

オーストリアは肉料理を初め美味しい料理が盛りだくさんで、毎日の会議後の夜には様々な国や機関から集まった研究者同士で親睦を深め合いました。

オーストリア料理 シュニッツェル
ディナーの一場面

聴講した発表

 音源分離、音響識別技術を中心に、音響信号処理に関する研究発表を聴講いたしました。

音源分離関連の動向

今回のINTERSPEECHで注⽬したのは、複数の音が混ざった信号を特徴量抽出なしに直接深層ニューラルネットワークで分離する手法です。これまで、深層ニューラルネットワークを用いた音源分離手法の多くは信号を短時間フーリエ変換し、時間周波数領域でフィルタリングを行うことで信号を分離していました。近年、短時間フーリエ変換を行わず深層ニューラルネットワークのみでEnd-to-Endに音源分離を行う手法が提案されていますが、INTERSPEECH2019では音声の分離[1]、歌声の分離[2]においてEnd-to-Endの枠組みが従来手法を大きく上回ったという報告がありました。これらの研究以外にもEnd-to-Endの音源分離手法が多く発表されており[3]、今後音源分離において主流となっていくと考えられます。

音響イベント検出/音響シーン識別

音データがどんな状況(シーン)で収録されたものか、なんの物音(イベント)なのかを識別するタスクです。音声処理をメイントピックとしたINTERSPEECHではそうした一般音の認識技術の発表数は多くはありませんでしたが、音声処理分野の最新手法を音声の知見を活かしつつ一般音の識別へうまく取り入れた手法が発表されていました。特に目を引いたものとしては、音声認識を始めとした多くのタスクで活用が進み有効性が多く報告されているAttention mechanism[4,5]を用いた方法でした。音声はスペクトル(音を周波数分析した結果である特徴量)の構造にある程度の予想がつくのに対し、一般の物音の場合は、音声にはない高周波数の音が重要になったり、時間的な変化自体が特徴になったりする場合が多いです。そこで、時間的-周波数的な2次元でattentionを取り入れてうまく一般音のモデル化を行おうといった方法があり、高い性能を示していました。音声と一般音は、似ているように思えてデータにすると全く異なる特性を見せます。それぞれの分野の手法をうまく取り入れるためには、それぞれの分野のデータ特性の共通点・相違点を明らかにし、うまく手法に取り入れることが重要であり、今回の調査ではそのことを深く考えさせられました。

LINEの発表内容

今回、LINE Research Labsからは戸上、升山のそれぞれ1件の発表が採択され、オーラルセッションで発表してきました。この2件は、音源分離技術に関する発表で、戸上は、残響成分の除去技術[10]、升山は、深層学習を用いたいずれも深層学習に基づく音源分離技術(複数のマイクロホンを用いて、複数の音声を分離する技術)に関する発表で、最後の1件 [7]は、深層学習に基づく音声強調技術(複数のマイクロホンを用いて、音声と背景雑音とを分離する技術)の発表でした。

” Variational Bayesian Multi-Channel Speech Dereverberation Under Noisy Environments with Probabilistic Convolutive Transfer Function”

マイクロホンと話者との距離が離れている場合、マイクロホンには、話者の声が壁や床で反射することにより生じる残響成分が大きく混入し、お風呂場で話している時のような、響きが強い音になります。この響きは、音声認識の認識率劣化や音声通話装置の通話品質の劣化につながる為、除去することが強く望まれます。これまでも様々な残響除去法が検討されてきていますが、人の顔が動きたり、室温が変わったりすることで、音がマイクまで届くまでの伝搬経路が変わってしまうと残響除去性能が劣化するという問題がありました。今回は、この問題に対して、音がマイクに届くまでの伝搬経路を確率モデルで表現し、変動に対して頑健に残響成分を除去する方法を提案し、実験によりその有効性を確認しました。

https://www.isca-speech.org/archive/Interspeech_2019/abstracts/1220.html

“Multichannel Loss Function for Supervised Speech Source Separation by Mask-based Beamforming”

深層ニューラルネットワークを用いて各音源がどの方向にあるのかを推定し、推定した方向から到来する音をビームフォーミングという信号処理技術で抽出する手法について発表いたしました[6]。この枠組みはMask-based Beamformingと呼ばれこれまでも研究されてきましたが、その多くはニューラルネットワークの学習を単チャネルの音源分離で行っていました[7]。一方、我々は多チャンネルの音声信号の確率モデル[8,9]に基づいてロス関数を設計し、深層ニューラルネットワークの学習を行いました。これにより、従来手法から分離時の計算コストが増加することなく分離性能が改善することを確認いたしました。

https://www.isca-speech.org/archive/Interspeech_2019/abstracts/1289.html

おわりに

音声処理分野最大の会議であるINTERSPEECH2019に参加したことによって、スマートスピーカーの流行などから始まる音声処理分野全体の盛り上がりを肌で感じることができました。

LINE Research Labs も論文発表を積極的に継続し音声処理分野の研究の発展にコミットしていきたいとあらためて実感しました。

LINE Research Labs では、音声・音響処理の研究者を積極的に募集しています。最新の研究動向を学んで業務に活かせる機会がたくさんありますので、興味のある方はぜひ応募をご検討ください。

https://linecorp.com/ja/career/position/957

  • [1] F. Bahmaninezhad, J.Wu, R. Gu, S. X. Zhang, Y. Xu, M. Yu, and D. Yu, “A comprehensive study of speech separation: spectrogram vs waveform separation,” INTERSPEECH 2019, pp. 4574–4578.
  • [2] F. Lluís, J. Pons, and X. Serra, “End-to-end music source separation: Is it possible in the waveform domain?,” INTERSPEECH 2019, pp. 4619–4623
  • [3] N. Tawara, T. Kobayashi, and T. Ogawa, “Multi-channel speech enhancement using time-domain convolutional denoising autoencoder,” INTERSPEECH 2019, pp. 86–90.
  • [4] H. Phan, O. Y. Chén, L. Pham, P. Koch, M. D. Vos, I. McLoughlin, A. Mertins , “Spatio-Temporal Attention Pooling for Audio Scene Classification,” INTERSPEECH2019, pp. 3845-3849
  • [5] J. Zhang, W. Ding, J. Kang, L. He, “Multi-Scale Time-Frequency Attention for Rare Sound Event Detection,” INTERSPEECH2019, pp. 3855-3859
  • [6] Y. Masuyama, M. Togami, and T. Komatsu, “Multichannel loss function for supervised speech source separation by mask-based beamforming,” INTERSPEECH2019, pp. 2708-2712.
  • [7] J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” ICASSP 2016, pp. 196–200.
  • [8] N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio Speech Lang. Process., vol. 18, no. 7, pp. 1830–1840, 2010.
  • [9] M. Togami, “Multi-channel Itakura Saito Distance Minimization with deep neural network,”  ICASSP 2019 , pp. 536–540.
  • [10] M. Togami and T. Komatsu, “Variational Bayesian Multi-Channel Speech Dereverberation Under Noisy Environments with Probabilistic Convolutive Transfer Function,”  INTERSPEECH2019, pp. 106-110.