Data Science CenterのDSC Planningチーム
はじめに こんにちは、京都大学大学院情報学研究科知能情報学専攻修士1年生のイ ジェヨン (Lee Jaeyoung) と申します。今回は、2023年夏にLINEのData Science CenterのDSC PlanningチームでML PM (Program Manager) として技術職就業型コースのインターンシップに参加しました。本記事ではその内容についてお話ししたいと思います。 ML PMとは? LINE Data Science CenterにはDSC Planningチームという組織があり、ML (Machine Learning) やDS (Data Science) に関わるPM (Program Manager) が働いています。MLは機械学習のプロダクト開発を、DSは事業プロジェクトにおけるデータ分析を支える役割になります。今回私はMLに方に関わるML PMとして参加させていただきました。 ML PM とは、MLプロダクトに紐づいて、問題発見から実装・デプロイまでのすべての開発サイクルをマネジメントする人です。LINEのような大きい開発組織とな
ML Sol.3チーム
はじめに こんにちは!LINEの6週間の就業型インターンシップで、ML室Solution3チームに所属させて頂いた王朔といいます。簡単に自己紹介をすると、東京大学大学院情報理工学系研究科の修士1年で、機械学習の理論を専門とする研究室に所属していて、個人的には機械学習の解釈性に関する研究をしています。 インターンでは私の研究分野との融合を考えて「MLモデルの解釈性の探究」を1つの大きなテーマとしました。 また今回お世話になったチームではユーザ属性(users' persona)をメインに扱っており、LINEの開発環境自体に触ることや、属性推定の精度を向上をさせることを目的として「family serviceデータを用いた属性推定の改善」というテーマについても取り組むことになりました。 この記事では、これら2つのテーマについて私が得た体験と学びを書いていこうと思います。それでは第一部として「MLモデル解釈性の調査・探究」についてどうぞ!! MLモデル解釈性の調査・探究 背景 AIはblack box 一般的な話として、機械学習・深層学習モデル(以後MLモデルと呼ぶ)は基本的にブラックボック
NLP Foundation Devチーム
言語モデル訓練データのクリーニング:ルールベース vs 機械学習 こんにちは、早稲田大学修士課程1年の近藤瑞希と申します。8月21日から9月29日の6週間、NLP Platform Foundationチームでインターンシップに参加しました。本レポートでは私がインターンシップ中に取り組んだ、言語モデル訓練データのクリーニングについて報告します。 背景 ChatGPTなどに代表される大規模言語モデル(LLM)は多量のテキストを用いて学習を行っています。分析や研究に使うためにテキストを集積して構造化したものをコーパスと呼び、代表的なものではPile[1]やC4[2]が挙げられます。 LLMの学習に使われるコーパスはWeb上のテキストを集めたものが多く、質の悪いデータが含まれています。例えば、同じ単語の繰り返しや意味が通っていない文章などがWeb上には多く存在します。こうした質の悪いデータを除くことでLLMの性能が向上するといった報告もあります[3]。そのため多くのLLM事前学習ではテキストの品質を判定するフィルタを作成して、コーパスのクリーニングを行っています。フィルタはほとんどの場合でル