NLP Foundation Devチーム
こんにちは。NLP Foundation Devチームの小林滉河(@kajyuuen)と水本智也(@tomo_wb)です。 NLP Foundation Devチームでは言語モデルの構築やモデルの応用・評価について取り組んでいます。今回はその取り組みの一つである「japanese-large-lm-instruction-sft」について紹介します。こちらは先日紹介したjapanese-large-lmを「Finetuned Language Models Are Zero-Shot Learners」で提案されたInstruction Tuningという手法を用いて、Supervised Fine-tuning (SFT) したモデルになります。自動評価の結果、同パラメータ数の日本語大規模言語モデル(LLM)の中でも高い性能であることを示せたため、本モデルを共有します。 japanese-large-lm-instruction-sftはtransformersライブラリから利用可能で、商用利用も可能なApache License 2.0をライセンスとして採用しています。 http
NLP Foundation Dev Team
こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。 今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。 この記事では、我々が訓練・公開した36億(3.6 Billion)および17億(1.7 Billion)パラメータの日本語言語モデル(以下、 それぞれ3.6Bモデル、1.7Bモデルと呼びます) を紹介しつつ、途中で得られた言語モデル構築のノウハウを共有します。 使い方 1.7Bモデル、3.6Bモデル共にHuggingFace Hubの以下のURLにおいて公開しており、tr