【インターンレポート】生成モデルのプライバシ保護技術について

2019年夏のインターンシップに参加した高木 駿です。インターンシップでは「データ共有のための生成モデルのプライバシ保護」について研究しました。 今回、インターンで取り組んだ内容を2020年3月にオンラインで開催されたDEIM 2020 (第12回データ工学と情報マネジメントに関するフォーラム)で発表し、 オンラインプレゼンテーション賞を頂くことができました。その研究内容について紹介します。発表資料は以下で公開しています。

https://speakerdeck.com/line_developers/privacy-preserving-deep-generative-model

背景

企業は様々なデータを抱えていますが、その中にはプライバシに関わるものが多く含まれています。その結果、組織外だけでなく組織内であってもデータの共有が難しいという問題があります。 このプライバシの問題の解決は、保有するデータの活用を促し、娯楽・医療などの様々な場面での貢献に繋がります。

プライバシ研究においては、何をプライバシと定義するかが重要になります。ここでは近年注目されている差分プライバシを用いるものとします。定義は数学的に書かれますが、簡単に説明すると次のようなものです。
–    アルゴリズムが「(ε,δ)-差分プライバシを満たしている」とは、そのアルゴリズムの出力から個人のデータが(ε,δ)で表される程度に推測されにくいことが保証されている状態のこと。
基本的には、アルゴリズムの出力にノイズを加えることで差分プライバシを達成します。 差分プライバシはアルゴリズムに強力なプライバシ保証を与えてくれますが、有用な出力が難しくなるという問題があります。この問題を解決することが差分プライバシに関する研究課題になります。

今回のインターンシップでは、この差分プライバシ下でのデータ共有手法を研究しました。差分プライバシをデータ共有の文脈に当てはめると、次のようになります。
–    (ε,δ)-差分プライバシを満たす、元のデータセットに近いデータセットを生成するアルゴリズムを作る
既存研究はいくつかあるのですが、最近主流な方法はデータの生成モデルを構築するアルゴリズムを、差分プライバシを満たすようにするというものです。 例えば、有名なところでいうと、GANや VAE、ベイジアンネットワークといった生成モデルの学習を、差分プライバシを満たすように行うということです。

研究課題

既存研究では、低次元データ(例えば次元<20)であれば、ある程度の質を保ったデータを生成できますが、高次元データで質を保つことが困難でした。
今回のインターンシップでは、「高次元データでも質を保ったまま」生成することができる方法を提案しました。

その方法として、VAEに基づく方法を検討しました。VAEの特徴として、訓練が比較的安定しており、高次元データの学習(つまり、生成)が可能なことが挙げられます。 そのことから、VAEを差分プライバシに必要なノイズの下でも訓練ができると考えました。
しかし、実際は単純にはVAEでもうまくいきません。VAEは埋め込みと再構築を同時に学習していると解釈できますが、雑音が加わると、埋め込みと再構築が互いに悪影響を及ぼしあって、収束しないのです。

提案

そこでVAEの亜種として段階的学習可能な確率モデルを提案しました。以下が概要図と確率モデルです。

概要図をみてわかるように、提案手法は段階的な学習をします。段階一では埋め込みを学習し、段階二では再構築を学習します。 このように、別々に学習することによって、互いに悪影響を及ぼし会うことを防ぎました。  実際に生成データを見てみます。高次元データとして、手書き文字画像データであるMNISTを用いました。

ベイジアンネットワークに基づくPrivBayes、VAEに基づくナイーブな手法やDP-GMと呼ばれる手法は、うまく元のデータを生成できていないことがわかります。 それに比べて提案手法は、MNISTのような高次元データでもうまく生成できていることが見て取れると思います。MNIST以外の4種類のデータに関しても本手法が優れていることを示しました。

まとめ

本記事では、インターンシップで取り組んだ差分プライバシ下でのデータ共有の方法を紹介しました。

二ヶ月という短い期間で成果を出すのは簡単ではありませんが、社員の方々から精神的、研究的に手厚いサポートを受けることができたので、研究成果をまとめることができました。 今回のインターンシップによって、アカデミックの世界で生きていく上で重要な力である、問題を発見し、日々議論をしながらその解決方法を見つけるということを身につけることができたと感じました。

Related Post