Yuto Nishimura
2022-10-12Voiceチーム
1.はじめに
こんにちは, 東京大学工学部計数工学科数理コースの4年生, 西邑勇人です. 執筆時はまだ研究室に所属していませんが, インターンとして音声分野の研究室に所属していました. 今回, LINE での就業型エンジニアリングインターンシップとして行った, AI開発室の Voice チームでの取り組みを紹介したいと思います.
2.インターン課題と目的
背景
近年, 音声合成分野は目まぐるしく発展しており, ここ最近で特に話題になったモデルとしては, VITS[1] と呼ばれるものがあります. このモデルは, 音声合成分野における強力なモデルを組み合わせているだけでなく, VAE[2], GAN[3], Flow[4], といった深層学習分野で有名な手法を組み合わせているという, まさに集大成のモデルになっています. その精度も非常に高く, 実際の人間の音声との比較において有意差がなくなるほどまでになりました※1.
一方で, これが研究の終着点というわけではありません. 更に自然性を上げることは勿論のこと, 音声変換への拡張, 多言語・多話