プライバシー保護データマイニングとは?データを安全に活用する最新技術について解説

「活用したいデータはあるけど、データのプライバシー保護がネックになって、思うようにデータ活用が進まない」といった悩みはありませんか?

昨今、社内の業務改善や消費者向けサービスの品質向上などを目的に、データ活用に取り組む企業が、業界を問わず増加しています。しかし、データには個人情報や企業秘密といったプライバシーが含まれるケースも珍しくなく、プライバシー保護とデータ活用の両立が課題になります。

本記事では、データのプライバシーを保護したまま安全にデータ活用する手段として、注目度が高まっているプライバシー保護データマイニングについてご紹介いたします。

プライバシー保護データマイニングとは

プライバシー保護データマイニング(PPDM:Privacy Preserving Data Mining)とは、データのプライバシーを保護したまま、データ解析を行う技術の総称です。
データの中身が直接見える状態でデータ解析を行う技術が提案されている従来のデータマイニングに対して、プライバシー保護データマイニングでは、データを暗号化したまま演算できる準同型暗号や、データを断片化した状態で演算できる秘密分散、プライバシーを取り除きながらデータ収集やデータ共有ができる差分プライバシー、複数人の間で互いのデータを共有せずに共同利用可能なAIモデルを構築できる連合学習などの技術が提案されています。準同型暗号と秘密分散は、特に秘密計算とも呼ばれることもあります。

プライバシー保護データマイニングにおけるメジャーな技術の特徴と課題を表1に示します。これらの技術は、状況に応じて使い分けられることや組み合わせて使われることがあります。また、GAFAMが研究開発チームを立ち上げていたり、オープンソースソフトウェアが公開されています。

プライバシー保護データマイニングの技術一覧

表1 プライバシー保護データマイニングの技術一覧

プライバシー保護データマイニングに期待されていること

図1のように、プライバシー保護データマイニングの技術を用いることで、組織が保有するビックデータのプライバシーを脅かすことなく、ビックデータに蓄積された知見を活かしたサービスが、安全に提供できます。ビックデータの中でもパーソナルデータは、口座の取引明細やECサイトでの購買履歴、医療機関での診療記録、位置情報から取得した移動履歴など、個人に関する様々な情報が含まれています。データの中身が直接見える状態でないと適用できない従来のデータマイニングでは、プライバシーが脅かされるリスクが生じるため、パーソナルデータのデータ活用が思うように進まない場合があります。しかし、プライバシーを保護したままデータ解析を行えるプライバシー保護データマイニングを活用することで、パーソナルデータのデータ活用が促進され、例えば以下のようなサービスを安全に提供できると期待されています。
  • 金融分野では、与信審査AIを安全に提供可能。差分プライバシーを活用して、AIに個人情報を暗記させないよう学習時にノイズを加えておくことで、公開したAIのふるまいから個人情報が漏洩してしまうリスクを小さくすることが可能。
  • 公共・インフラ分野では、国や地方自治体が公的統計データをオープンデータとして安全に公開可能。k-匿名化と差分プライバシーを組み合わせて活用することで、公開したデータから個人が識別されるリスクを小さくすることが可能。
  • 製造・IoT分野では、自動運転のAIを安全に提供可能。車載カメラから得られたデータを元に、合成データを生成することで、個人のプライバシーが取り除かれた状態の学習データでAIを学習させることが可能。
プライバシー保護データマイニングによって、データの共同利用のハードルが下がり、複数の組織に蓄積された知見が統合できることで、例えば以下のことが実現できると期待されています。
  • 金融分野では、複数の金融機関が送金情報を共同利用することで、発生頻度が稀な不正送金パターンのデータ量が確保しやすくなり、不正送金検知の精度を向上
  • 医療分野では、複数の医療機関が診療情報を共同利用することで、発症が稀な疾患についての診察精度の向上や創薬開発を促進
  • 異業種である保険企業とレンタカー企業がデータを共同利用することで、ユーザの運転レベルも加味した自動車保険料をシミュレーション
プライバシー保護データマイニングを活用することで提供できるサービスの例

図1 プライバシー保護データマイニングを活用することで提供できるサービスの例

プライバシー保護データマイニングの注目度が高まっている背景

近年、膨大なパーソナルデータを保有するGAFAMが自社のサービスにプライバシー保護データマイニングを導入したり、日本の金融機関がIT企業と共同で実証実験に取り組むなど、プライバシー保護データマイニングの実用化に向けた取り組みがニュースで見受けられるようになりました。こうした背景には、プライバシー保護規制がますます厳しくなっていることや、データ解析のアウトソーシングやデータの共同利用についてのニーズが高まっていることが挙げられます。

プライバシー保護規制については、例えば、EUでは一般データ保護規則(GDPR:General Data Protection Regulation)が規定され、日本では個人情報保護法改正が施行されました。このような保護規制が施行されたことで、パーソナルデータを取り扱う世界中の組織が、規制に違反しないように対策を講じる必要に迫られました。しかし、データをただ暗号化したりマスキングするだけでは、データの有用性が低下するため、データ活用が滞ってしまいます。そこで、プライバシー保護とデータ活用が両立できるような技術を提案しているプライバシー保護データマイニングの注目度が高まっています。

データ解析は、目的に応じたデータ分析手法やAIの設計や実装、運用など、データ活用をする上で欠かせない工程の一つですが、データ解析の内製化にあたり、データサイエンティストの育成や実行環境の用意に、膨大な時間やコストが掛ります。規模が大きくない組織や、新たにデータ活用に取り組もうとする組織では、費用対効果の高さから、データ解析のアウトソーシングに対するニーズが高まっています。しかし、従来のデータマイニングを用いたデータ解析のアウトソーシングでは、データの中身やそこから得られる解析結果が委託先にも見える状態で解析を依頼する必要があるため、情報漏洩や不正利用のリスクが伴います。このようなリスクから、秘匿したいデータを保有する組織では、データ活用になかなか取り組みにくい状況がありました。そこで、準同型暗号などを活用した、委託先にデータや解析結果が見えない状態で解析を依頼できる安心安全なアウトソーシングの実現に向けて、プライバシー保護データマイニングの注目度が高まっています。

データの共同利用とは、複数の組織が協業し、データを共有して共同でデータ活用に取り組むことです。「自社で収集したデータだけではデータ量が足りずデータ活用が思うように進まない」、「自社のデータと組織外のデータを組み合わせて、業界を横断した新たなサービス価値を創出したい」といった考えが広まってきたことで、データの共同利用のニーズが高まっています。このニーズに対して、保有するデータをオープンデータとして公開したり、販売する組織が現れてきています。例えば、情報銀行では、個人から預かったパーソナルデータを、個人の同意の元、パーソナルデータを欲している事業者に提供し、その事業者が得た利益を個人に還元する、といったビジネスを運営しています。また、EUでは2020年に欧州データ戦略が公表されました。GAFAMの保有するデータ量に対抗するため、加盟国の企業や自治体が保有するデータを共有できる「欧州データ空間」というデータ流通基盤の構築を目指しています。データの公開や販売、データ流通基盤を使ったデータ共有を行うときは、データのプライバシー保護が重要です。そこで、データを共有せずに共同利用できる技術を提案している、プライバシー保護データマイニングの注目度が高まっています。

プライバシー保護データマイニングを活用するメリット

データ解析を安全にアウトソーシングできる

プライバシー保護データマイニングには、データを暗号化した状態のまま演算できる準同型暗号や、データを断片化した状態で演算できる秘密分散などがあります。このような技術を活用することで、データの中身や解析結果は見えない状態でのデータ解析が可能になります。図2のように、データ解析を内製化していない組織も、データ解析を安全に外部のデータサイエンス専門組織へアウトソーシングできるようになり、データ活用を促進できます。

例えば、産業技術総合研究所では、準同型暗号を活用した化合物の検索サーバを開発しました。創薬分野において、化合物データは企業秘密に該当するデータであり、組織外に持ち出すことが難しいため、計算リソースを必要とする類似化合物の検索では、外部の検索サーバが活用できない状況でした。そこで、準同型暗号を活用し、化合物のデータを暗号化した状態のまま検索できるサーバを開発しました。利用者はサーバ側に、生データを公開する必要がないため、創薬分野におけるオープンイノベーションに貢献すると期待されています。

プライバシー保護データマイニングを活用したデータ解析のアウトソーシング

図2 プライバシー保護データマイニングを活用したデータ解析のアウトソーシング

データを安全に公開・販売できる

プライバシー保護データマイニングには、元データからプライバシーが取り除かれたデータを生成するk-匿名化や合成データ、データに問い合わせを行ったときにプライバシーが含まれない問い合わせ結果を生成する差分プライバシーなどがあります。このような技術を活用することで、図3のように、組織が保有するデータや分析レポートを安全に公開・販売できるようになります。

例えば、Googleは、COVID-19の感染症対策を目的に、人々の移動傾向に関する分析レポートを公開しました。この分析レポートは、Goolgeマップで収集したビックデータを元に作成されましたが、データの集計時に差分プライバシーを活用し、公開した分析レポートから個人の移動履歴が特定されるリスクを小さくしています。東日本旅客鉄道株式会社も、交通ICカード「Suica」で収集したビックデータに対して、k-匿名化を活用した集計を行い、定型レポート「駅カルテ」を作成し、販売を行っています。

プライバシー保護データマイニングを活用したデータ公開・販売

図3 プライバシー保護データマイニングを活用したデータ公開・販売

複数の組織間でデータを安全に共同利用できる

プライバシー保護データマイニングには、データを暗号化した状態のままデータ同士を演算できる準同型暗号や、互いのデータを共有することなく共同利用可能なAIモデルを構築できる連合学習などがあります。このような技術を用いることで、図4のように、組織が保有するデータ量が少ない場合でも、外部の組織と協業し、データを安全に共同利用できるようになり、潤沢なデータでのデータ活用が行えます。また、異なる分野の組織同士が協業してデータを共同利用することで、業界を横断した新たなサービス価値の創出が期待できます。

例えば、ペンシルベニア大学の医学部を始めとする29つの医療機関では、連合学習を活用し、共同利用可能な脳腫瘍の検出AIを構築しました。患者データは、医療機関外への持ち出しが困難であるため、医療機関ごとにデータがサイロ化されており、1箇所に学習データを集めてAIに学習させることが困難でした。そこで、連合学習を活用することで、各医療機関が保有するデータを外部に持ち出すことなく、各医療機関ごとに学習させたAIのパラメータのみを使って、共同利用可能なAIが構築できることを示しました。国内では、5行の金融機関(千葉銀行、三菱UFJ銀行、中国銀行、三井住友信託銀行、伊予銀行)が連携し、同様の技術を活用した不正送金検知AIの精度検証を実施しました。結果としては、連合学習を活用して2行のデータで学習させたAIは、単独組織のデータで学習させたAIよりも、不正送金を早期に検知できるようになりました。中国のWeBankも、連合学習を活用し、保険企業とレンタカー企業といった異なる分野のデータを共同利用することで、利用者の運転履歴も考慮した自動車保険料のシミュレーションが実現できないか検証を行っています。

プライバシー保護データマイニングを活用したデータ共同利用

図4 プライバシー保護データマイニングを活用したデータ共同利用

まとめ

  • プライバシー保護データマイニングは、データのプライバシーを保護したまま、データ解析を行う技術の総称である
  • プライバシー保護データマイニングを使うと、秘匿したいデータを持つ複数の組織が共同でデータ活用に取り組むことができる
  • プライバシー保護データマイニングを使うと、業界を横断した新たなサービス価値の創出ができる

さいごに

ご覧いただきありがとうございました。EXAでは、オープンソースソフトウェアを使用して、プライバシー保護データマイニング技術に取り組んでいます。「プライバシー保護とデータ活用の両立が難しい」、「データ不足に悩んでいる」、「データ解析を安全にアウトソーシングしたい」、「他の組織のデータも組み合わせて新たなサービス価値を創出したい」という企業様がいらっしゃいましたら、ぜひ、ご相談ください。

執筆者紹介

関連する記事

関連ソリューション

関連事例

お問い合わせ

CONTACT

Webからのお問い合わせ
エクサの最新情報と
セミナー案内を
お届けします
ソリューション・サービスに関する
お電話でのお問い合わせ

平日9:00~17:00※弊社休業日を除く