ICASSP2020のOpen Previewが始まりました

LINE Data Labs、Speechチームの戸上です。

IEEE Signal Processing Society主催のICASSP2020 (International Conference on Acoustics, Speech, and Signal Processing) は、音声・音響信号処理分野におけるトップカンファレンスです。

(参考)昨年度の参加レポート:IEEE ICASSP2019聴講・発表報告

本年度は、5月4日〜8日にかけてスペイン・バルセロナで開催予定でしたが、COVID-19の世界的な感染拡大の影響から、バーチャルカンファレンスに変更となりました。口頭発表・ポスター発表ともに、プレゼンテーションは発表者が事前に動画を収録、当日はQ&Aセッションを行う形式で進行します。4月9日より、学会開催に先駆けて、各論文が事前に閲覧可能です。

以下、LINEの研究者(太字)が発表を予定している、11本の論文情報をまとめております。ぜひリンク先から各論文をご参照ください。

ICASSP2020 論文一覧

Unsupervised Training for Deep Speech Source Separation with Kullback-Leibler Divergence based Probabilistic Loss Function
M. Togami, Y. Masuyama, T. Komatsu, and Y. Nakagome

Multi-channel Speech Source Separation and Dereverberation  with Sequential Integration of Determined and Underdetermined Models
M. Togami

Consistency-Aware Multi-channel Speech Enhancement using Deep Neural Networks
– Y. Masuyama, M. Togami, and T. Komatsu

Deep Speech Extraction with Time-varying Spatial Filtering Guided by Desired Direction Attractor
– Y. Nakagome, M. Togami, T. Ogawa, T. Kobayashi

Scene-dependent Acoustic Event Detection with Scene Conditioning and Fake-scene-conditioned Loss
T. Komatsu, K. Imoto, M. Togami

Weakly-Supervised Sound Event Detection with Self-attention
– K. Miyazaki, T. Komatsu, T. Hayashi, S. Watanabe, T. Toda, K. Takeda

Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram
R. Yamamoto, E. Song, J.-M. Kim

Improving LPCNet-based Text-to-Speech with Linear Prediction-structured Mixture Density Network
– M.-J. Hwang, E. Song, R. Yamamoto, F. Soong, H.-G. Kang

Joint Training of Deep Neural Networks for Multi-channel Dereverberation and Speech Source Separation
M. Togami

ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-to-Speech Toolkit
– T. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura, S. Watanabe, T. Toda, K. Takeda, Y. Zhang, X. Tan

Semi-supervised Speaker Adaptation for End-to-End Speech Synthesis with Pretrained Models
– K. Inoue, S. Hara, M. Abe, T. Hayashi, R. Yamamoto, S. Watanabe

LINE Data Labsについて

LINEでは、2020年3月より、AI技術の研究・開発およびAI技術を活用した事業の発展を加速させることを目的に、「データ基盤開発」「データ分析」「機械学習」「AI技術開発」「基礎研究」を担うチームを「Data Science and Engineeringセンター」という1つの組織に集約しました。これにより各チーム間の連携を強め、“研究→開発→事業化”のサイクルをスピードアップしています。また、事業や担当領域を超えた横断的な大規模データを最大限に活用し、新たなAI関連サービス・新機能を創出するとともに、各種サービスのさらなるユーザ体験向上にも注力しています。「LINE Data Labs」はData Science and Engineeringセンターの中にある組織の一つです。

音声関連としては、韓国NAVER社と連携して、音声認識・音声合成のR&Dや、AIスピーカーであるClova、LINEが開発・保有するAI技術を外部企業等へ展開する「LINE BRAIN」事業に関連したプロダクト化に注力しています。東京と京都に開発拠点を持っています。また、国立情報学研究所NIIの中にあるロバストインテリジェンス・ソーシャルテクノロジー研究センター(CRIS)と連携し、音源分離・音声認識・対話技術に関して大学との共同研究を推進しています。

LINE社員が参加・発表する学会やカンファレンス、採用説明会などのイベントでは、「LINE Data Labs」の各組織や仕事内容をご紹介する冊子を配布しております。オンラインでもご覧いただけますので是非ご参照ください。

最後に

LINEでは、以下の各職種にて音声・音響・信号処理系の研究者を積極的に採用しています。興味がある方は応募をご検討ください!