兵藤弘明
2023-09-26AI Dev室ASPチーム
はじめに
こんにちは、東京大学情報理工学系研究科修士1年の兵藤弘明です。私は、今回のインターンでNeural Audio Codecを用いたテキスト音声合成モデルの性能検証に取り組みました。この記事では、その内容について紹介します。
背景・課題
はじめに、今回取り組んだテーマに関連する技術であるテキスト音声合成とNeural Audio Codecについて説明します。
まずテキスト音声合成(Text-to-speech; TTS)とは、自然言語で記述されたテキストを対応する音声に変換する技術です。例えば、入力として「今日はいい天気ですね。」というテキストを受け取ると、TTSモデルは「今日はいい天気ですね。」と人間が発話したような音声データを出力します。TTSはその汎用性の広さからコールセンター、駅の案内放送、動画コンテンツ作成に至るまで日常生活の様々な場面で使われています。
次にAudio codecとは、音データを圧縮するためのアルゴリズムや方式のことです。有名なものとしては、MP3やAACなどがあります。Audio codecを用いて音データを圧縮することで、ストレージ容量を節約し