AI Dev室 NLP Platform Devチーム
この度、LINEの技術職 就業型コースのインターンシップに参加させていただきました、お茶の水女子大学修士課程1年の佐藤杏奈と申します。インターンシップではNLP Platform Devチームに所属し、量子化による大規模言語モデル(LLM)の軽量化について検証を行いました。本レポートではその成果について、ご報告いたします。 0. 大規模言語モデルの量子化とは 量子化とは、重みなどのパラメータをより少ないビットで表現することで、モデルの軽量化、高速化を図る手法の一つです。昨今活躍する大規模な言語モデルの多くは数十億、数百億以上のパラメータを持っており、これらの訓練には通常、多くのGPUで数ヶ月と、膨大なコストが必要になります。また、そのようにして訓練させたモデルは、別の特定の用途に合うようにチューニングすることはもちろん、モデルを動かすことも簡単ではありません。大きなモデルであるほどメモリが必要になり、生成・推論のコストがかかるため、モデルを扱うためにも充実した計算環境が求められます。 そこで今回は、そんな大規模言語 モデルをよりコストを抑えて扱えるようにすることを目標に、モデルの軽