AI開発室 Trustworthy AIチームの綿岡と、Data Scienceセンター ML Privacyチームの竹之内です。10月にコンピュータセキュリティシンポジウム2022(CSS2022)にて発表しましたので、その模様を報告します。
綿岡からは言語モデルの倫理的問題点を効率的に検査する手法「Iterative Few-shot」に関する論文を発表し、CSS奨励賞を受賞したことを報告します。ML Privacyチームからは、竹之内が企画セッションに登壇した他、髙橋や前田が座長や運営なども目的に参加しました。
本ブログでは、主に発表論文や企画セッションの内容を中心に、シンポジウムの様子を報告します。
CSS2022について
コンピュータセキュリティシンポジウム(CSS)は、セキュリティ分野の2大国内シンポジウムの一つであり、情報処理学会コンピュータセキュリティ研究会の主催で毎年行われています。今年のCSS2022は、2022年10月24日から4日間の日程で、熊本とオンラインとのハイブリッド形式で開催されました。会場は2016年の熊本地震から復旧を進めている熊本城を臨む熊本城ホールです。
論文発表「言語モデルの倫理的検査のための効率的なテストケースの生成」
今回のCSS2022で提案した「Iterative Few-shot」は言語モデルの倫理的問題点を効率的に検査するための手法です。自然な文章を生成できる言語モデルは様々なNLPタスクを解くことができる一方、倫理的に問題だと感じられる文章(攻撃的発言、プライバシー情報の暴露など)を生成してしまうリスクも存在します。そのため言語モデルに対するデプロイ前検査が重要となります。デプロイ前検査の既存手法として、2つの言語モデル同士に会話させ分類器で問題を検知する手法、Red Teaming Language Modelが挙げられます。しかし、この手法では、攻撃的発言のように発現しやすい問題ではスムーズに検査が進むのですが、プライバシー情報の暴露のように発現しにくい問題ではなかなか検査が進まない課題がありました。そこで、提案手法「Iterateive Few-shot」では検査を進める中で倫理的問題の発現を検知した例を逐次記録し、その例を参考にすることで効率的な検査を実現しました。評価実験では、攻撃的発言、プライバシー情報の暴露において、既存手法より効率的に検査ができることを示しました。
詳細は以下の発表資料等をご参照ください。
発表論文
"言語モデルの倫理的検査のための効率的なテストケースの生成"
綿岡 晃輝 (LINE株式会社), 野崎 雄斗 (東京大学), 馬越 雅人 (LINE株式会社), 髙橋 翼 (LINE株式会社)
発表資料
発表と授賞式の模様
発表では多くの方々に興味を持っていただき、様々な質問をいただきました。質疑の時間が終わった後も多くの方々から発表内容に関して質問や意見をいただき、とても有意義な議論をすることができました。
所感
今回のCSS2022は私、綿岡にとって人生で初めての学会への現地参加でした。オフラインならではの発表の雰囲気や盛んな議論はとても刺激的でした。Trusworthy AIチームでも非常に注目しているAIの安全性の標準化に関する発表なども聴講することができ、発表後に質問や意見交換などさせていただきました。また、私たちの研究にCSS奨励賞をいただけたことは非常に光栄であり、これからの可能性を期待したいただけたと受け止め、今後の糧としてより一層精進したく思います。
PWS企画「差分プライバシーセッション:差分プライバシーの普及に向けて」
今回、竹之内はPWS(Privacy Work Shop)の企画セッションに登壇しました。PWSとは、プライバシーに関する技術者と法制度等の専門家との議論を通じて国内のプライバシー保護技術の研究開発を活性化を目指した学会活動であり、毎年CSSにて企画セッションを行なっています。
今回竹之内が登壇した企画セッションは、プライバシー保護技術の中で注目されている差分プライバシーの普及をテーマにしたものです。差分プライバシーとは、データの収集や集計結果に対するプライバシーの水準を示した尺度です。例えば、差分プライバシーを満たすように集計結果にノイズ(乱数)を付加することで、集計結果からのプライバシー侵害を抑制できます。この技術は、米国統計局やBigTech企業などでの技術採用が進みつつあるなか、技術が解りにくいという意見があります。そこで、竹之内を含むPWSの企画メンバーにて検討し、差分プライバシーに関するセッションを企画したという背景です。
講演の様子
企画セッションでは、3つの講演とパネルディスカッションが行われました。まず、日本銀行の菅和聖氏からプライバシー保護における差分プライバシー技術の位置づけについて講演頂き、続いて、NTTドコモの寺田雅之氏から差分プライバシーの基本を仮設検定の考え方で解説する講演を頂きました。
竹之内からは「差分プライバシーの企業動向」というタイトルで、BigTech企業を中心とした差分プライバシーの適用事例の説明を行いました。また、LINEがこの分野で先端的な研究開発を行なっていることや、11月17,18日に行われるLINEとヤフーが合同で開催するオンライン技術カンファレンス「Tech-Verse 2022」にてLINEが導入したFederated Learningと差分プライバシーの事例について発表することを説明しました。
また、講演後のパネルディスカッションでは、普及に向け例えば以下のような課題があることが議論されました。
- 技術の解りやすい説明が重要であること
- 技術開発だけでなく、組織外とのコミュニケーションが重要であること(例:プライバシーのパラメータの開示や一般消費者との合意形成の必要性など)
- 差分プライバシーと個人情報保護法との関係の整理 など
(写真左:竹之内の講演の様子) (写真中:シンポジウムの看板)(写真右:会場の熊本城ホールの建物から見た熊本城)
所感と学会の価値
今回のCSSは3年ぶりの現地での開催であったためか議論も盛り上がり、技術研究者や法制度専門家との新たな繋がりも生まれました。
学会は最新技術について議論するだけでなく、連携の場としても有効です。新技術の普及については業界内での連携が必要ですし、特にプライバシー保護技術は見えにくい技術であるため、顧客に価値として認めて頂くには協力して技術自体の知名度を上げていくことも重要です。今回の議論を通じて引き続き業界にて連携し、より良い世界を作っていきたいと思います。
LINEが注力するプライバシー保護技術の研究開発について
LINEでは、ユーザーデータを活用したパーソナライゼーションに力を入れており、同時にデータを扱う際のプライバシーへの配慮についても重要視しています。
近年、国際的な規制の整備も進み、プライバシー保護の技術や考え方もめざましい発展を遂げています。時流に即した最適なプライバシーモデルの追求と導入は、プラットフォーマーとしての重要な責任です。LINEでは、連合学習や差分プライバシー、秘密計算等の先端的なプライバシー保護型機械学習技術の検証や実装を推進し、十分なプライバシーへの配慮と多様なユーザーに向けた深いパーソナライズの両立を目指しています。
プライバシー保護に関する研究開発の成果として、これまでLINEとしては、「ICDE2021」や「ICLR2022」といった世界トップレベルの国際会議で、差分プライバシーに関する論文の採択実績があります。差分プライバシーはユーザーデータ収集・活用にあたって、所定のノイズやランダム性を追加することによって、あらゆる人と見分けがつかない出力結果とする際に用いられる、数学的に厳密なプライバシー基準です。現在、LINEでは差分プライバシーによるプライバシー保護型データ活用の実用化に向け、研究開発に取り組んでいます。
最後に
LINEでは、以下の職種にてプライバシーxデータサイエンス・機械学習の研究者ならびにエンジニアを積極的に採用しています。興味がございましたら応募をご検討ください!!