2013年にDeep Belief Networkについて初めて読んだとき、私はディープラーニング(深層学習)に はまりました。現在、Clovaの自然言語処理における深層学習を研究開発しております。
2013年にDeep Belief Networkについて初めて読んだとき、私はディープラーニング(深層学習)にはまりました。現在、Clovaの自然言語処理における深層学習を研究開発しております。
こんにちは、ClovaチームのTungです。 Clovaは、Clova FriendsやClova Waveなどといったスマートデバイスに搭載されている私たちのAIプラットフォームです。 製品の詳細についてはこちらをご覧ください。 2018年の自然言語処理(NLP)分野において続々と発表された強力な言語モデル - ELMo、ULMFit 、OpenAI Transformer、BERTについて振り返りたいと思います。 各モデルそれぞれの内部解説はインターネット上にあったりしますが、今回は少し異なった見方を持って来ることを試みます。全モデルのアーキテクチャーの特徴を比較しながら言語学習との関係を検証した論文について紹介して行きます。 言語モデルの簡単な紹介 言語モデルとは 簡単に言えば、言語モデルは、(自然な)言語のトークンのシーケンスにわたる確率分布を計算するためのモデルです。 n-gram言語モデルのような古いモデルはある程度良い結果を達成しましたが、n 個のトークンを組み合わせた数が非常に多いため「次元の呪い」問題によって