Trustworthy AIチームで言語モデルの信頼性検証技術の開発に取り組んでいます。
AI開発室のTrustworthy AIチームに所属している綿岡です。普段の業務は言語モデルの信頼性向上のための技術開発で、特に有害文検知に関する技術開発に注力しています。昨今の言語モデルの急速な発展に伴い、有害文検知の技術も急成長しており、Perspective API(有害文を検知するAPI)を提供するJigsawは有害文検知コンペティションを2018年から毎年開催しています。一方、我々Trustworthy AIチームは、日本語での有害文検知モデルの構築は今後最重要課題となるだろうと常々考えてきました。そのことから有害文検知の最先端に挑戦するとともに知見を深めることを目的として、2021年11月からKaggleで開催された「Jigsaw Rate Severity of Toxic Comments」にTrustworthy AIチームから綿岡が参加することにしました。最終結果を先に記載しておきますと、2,301チーム中147位で銅メダルを獲得しました。このブログでは、 本コンペの概要及び出場にあたって取り組んだ内容について報告します。 ルール 本コン ペの目的 本コンペの目的は「