2013年夏のプログラミング・シンポジウム ビューティフルデータ(1) 午前 #spro2013

(講演者の方の氏名は敬称略)

[招待講演] パーソナルデータ保護法制に向けた最近の動向 高木浩光(産業技術総合研究所)

ここ2年ほどで急にきわどい事例が出始めた
(なんかたがが外れた感じ。技術的に実現可能になったからではない)


本人の同意があれば問題ない
ただし、真に同意があると言えるか疑わしい事例あり
契約上の同意だけでなく、自主的な同意がないとダメというのが法律家の意見
コンテキストに沿わない取得と利用(誤認誘導型)


特定の個人を識別できないデータならOKという主張
なぜそう思うの?逆になぜ特定の個人を識別できるデータはヤバいと思うの?
個人情報保護=連絡先の保護と誤解している人も何割かいる


何をもって匿名化されていると言えるか
PPDM privacy preserving data mining などの技術を前提に制度設計してよいか否か
政治家は、こういう技術が社会的にどう影響を与えるかわからない


例: ロンドンのスマートゴミ箱
通行人を識別してた→問題とされて試験運用を中断

この半年の動き
    • 総務省 パーソナルデータの利用・流通に関する研究会
      • 情報セキュリティ対策室10月設置、6月報告書
      • 個人情報保護法を超越した保護。利活用の制度を提案
      • パーソナルデータ⊃個人情報
    • 経産省 IT融合フォーラム パーソナルデータWG
      • 情報経済課 11月設置、5月報告書
      • 消費者と事業者の信頼関係の構築→有効な同意の確保へ
    • 内閣府 規制改革会議 創業等WG
      • 内閣総理大臣諮問 1月設置 3-5月WG、6月答申
      • 氏名住所削除で匿名データとみなそうとするが失敗
      • 現行法を無視してガイドラインで合法化を目指す方向性

6月14日 世界最先端IT国家創造宣言


国際先端テストの結論(消費者庁)
「匿名化情報の利用に関する日本と欧米の制度の比較」
特定個人を識別できるような対応表を廃棄すれば問題ない、法改正は必要ない
→そんなことはない



個人情報保護法

個人情報とは
生存する個人に関する情報であって
氏名、生年月日その他の記述等により特定の個人を識別することができるもの
(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む)


法解釈上の論点
「識別することができる」は誰によって識別という話か?
提供者基準(政府及び消費者庁・経産省、鈴木)
受領者基準(岡村)


岡村久道 個人情報保護法 新訂版、商事法務、2009
Aにとって識別性を具備しない情報を、これを具備するBに提供するケースは実際に発生しうるか疑問
→これは誤り


X(識別性あり) → Y(識別性なし) → Z(識別性あり) を想定していない



  • 業務委託との混同に注意
  • データ分析の業務委託の場合(政府説での理解)
    • 委託契約の元で履歴データを提供(預託)する
    • データから氏名等を削除して臨時のIDを付して渡すのが通例
    • その意図は、安全管理措置として事故字の被害を軽減するためであり、個人データの提供に当たらなくする(個人情報に該当しなくする)ためではない
    • 委託先は委託元と一体であるから委託先においても個人データ


JR-日立の例
一旦JRが受け取った後の統計データであればまだよかった
業務委託した日立がデータ提供しているのが問題
似てるようで全然違う
現行法だと違法だと言っていい


現行法
提供毎にランダムIDを付与するのは合法
→提供毎に過去全部のデータを提供してしまえば無意味




データ自体による照合性
k-匿名性との関係(全データがk=1だったら?)



適切な匿名化措置
匿名化したデータを再識別化しないことを約束・好評
第三者に提供する場合は、提供先が再識別化することを禁止すること




ゲノム科学におけるビッグデータ・データマイニング 石井一夫(東京農工大学)


バイオインフォマティクス、計算機統計学、ゲノムのデータ解析が専門
「Rによる計算機統計学


次世代シーケンサーとは、2005年ごろ実用化された新型分析機器。
大量拘束にDNAを解読可能で、ヒトゲノムを3時間程度で解読
個装基板上にDNA断片を子草加市、これを蛍光色素+酵素反応などを用いて、同時並列的に解読。CCDカメラで撮影+コンピュータで処理。
1検体大体数GBで、数百GBのデータを日常的に処理する。大体1000人程度で200TB
このデータを解析していく。

1. 画像処理からDNA塩基配列を取得する。
2. 配列を集計、編集していく
3. 統計処理をしていく

分散しやすいところ(マッピングやBLAST検索)はHadoop (AWS EMR)、分散しにくいところは大量のメモリ(4TB)を積んだサーバで処理

  • Hadoop上で動作する分析ツール
    • Crossbox(ジョン・ホプキンス大学)
    • Contrail
    • Myrna
    • GATK(Genome Analysis ToolKit)


次世代シーケンサーデータの品質管理

サンプル濃度の間違いや試薬濃度の間違いなどの解析
モンテカルロを使うと精度よく品質解析可能


Q. 圧縮してないの?
してる場合もある、と回答してたのであまり圧縮してないっぽい


数式を綺麗にプログラミングするコツ 中谷秀洋(サイボウズ・ラボ)


スライド http://www.slideshare.net/shuyo/programming-based-on-formula


数式

数式から行間の情報を読み解く

「逐語訳」できる形に数式を書き換える

実装


きちんと計算後の次元・サイズを確認する
さぼらず紙と鉛筆で確認するのが一番賢い