Differential Privacy#
差分プライバシーは、弱い秘匿性を満たすプライバシー定義のひとつとして提案された。
弱い秘匿性は、任意の応答値の集合\(S\)と任意のデータベースの組\(D,D^{\prime}\)に対して、以下の関係式が成り立つことを指す。
\[
\frac{\operatorname{Pr}(m(D, q) \in S)}{\operatorname{Pr}\left(m\left(D^{\prime}, q\right) \in S\right)} \leq c
\]
ここで、\(m\)は対象としているメカニズムであり\(q\)、クエリを入力に取り応答値を返す関数、クエリ\(q\)は\(D\)を入力として出力\(y\)を与える関数、\(c\)は1より大きな定数である。
2つの同じサイズのデータベース\(D,D^{\prime}\)に対して、異なるレコードの数を\(d(D,D^{\prime})\)とする。 \(\epsilon\)-差分プライバシーでは、\(d(D,D^{\prime})=1\)となる任意の\(D,D^{\prime},S\)に対して、\(m\)が\(c=\exp (\epsilon), \epsilon > 0\)となる上の式を満たす。
\(\epsilon\)-差分プライバシーを満たすメカニズムは、データベース上の1つのレコードをが変更されても、各データベースにおいてメカニズムを通じたクエリ出力の分布は大きく変化しない。そのため、出力をを受け取る利用者は、その値がどのデータベースから生成されたのか高い確信をもって推測することができない。
References#
佐久間淳, データ解析におけるプライバシー保護, 第7-9章