Machine Learning Solution室Privacy & Trustチーム
はじめに 初めまして!東北大学情報科学研究科修士1年の矢野一樹です。2023年8月から6週間、LINE夏インターンシップ技術職就業型コースに参加させていただきました。 今回のインターンではMachine Learning Privacy & Trust チームに配属され、主にAlignedされたLLMに対するストレステストについて検討しました。 本記事では、インターンシップ中での自分が取り組んだ作業内容とその成果について報告させていただきます。 テーマ背景 大規模言語モデル(LLM)は、任意の入力単語列に対して尤もらしい単語列を出力できることから様々なタスクに応用することができます。しかし、言語モデルは人間が作成したコーパスを使用して学習しているため、倫理的にふさわしくない振る舞い、例えば、暴力的な文章の生成、公平性の欠如、プライバシー情報の暴露などをしてしまう危険性があります。近年ではそのような振る舞いを防止するために様々な工夫を用いて言語モデルをAlignさせるAligned LLMが開発されています。しかしAligned LLMは全ての入力に対して完璧にAlignedされ