オープンデータの世界を夢見て


この一年間、私の興味はある一つのものに向かっていました。それは「データ」というものです。


私は一年ほど前、その数学が戦略を決めるという本に出会い、データと統計の大切さを知りました。一年間ナレッジマネジメントシステムの開発に携わり、Google Code Jamに参加しThe Economistを読んでいくうちに、データとは何か、データとはどう扱えばいいのかについて興味を持つようになりました。この傾向は12月になってからより一層強くなっていきました。


Datacenter as a Computerでデータを扱うための最新のインフラを学び、認識とパタン集合知プログラミングで世にあふれるデータを武器にする術を知り、The Economistの情報マネジメント特集を読んで Big Data の世界を見てきました。そして先月は、まだブログには書いていませんが、複雑ネットワークの科学パターン、Wiki、XPを読んで、単純化できないオブジェクト同士のつながりの可能性を知ることができました。あまり話題にはなっていませんが非常に素晴らしい奥野さんの記事「ウェブガイア仮説」にも感銘を受けました。


私に影響を与えたのは本やネットだけではありません。id:phoid:kany1120Science CommonsMy Open Archiveといったデータをオープンにする活動を教えてくれました。id:marqsid:daisukebe とは Datacenter as a Computer や集合知プログラミングの勉強を通してデータの扱いについて議論しました。

友人の証券アナリストは、仕事やビジネススクールで感じとった、データと統計の威力について語ってくれました。機械的な分析を元にした自動トレードプログラムによって、ベテランのカンでやってきたような証券取引はできなくなるだろうという話をしてくれました。id:piroe0127 は、こうしたプログラムによる取引によって中小の証券会社が苦境に立たされていることを教えてくれました。「その数学が戦略を決める」で書いてあった内容に通じるものがあります。

別の友人のある官僚は、中央が持つデータがいかに強力であるか、そしてそれらの多くが公開されているにも関わらず活用されていないという事実について教えてくれました。彼の話は、先に紹介した The Economist の記事につながるものがあります。アメリカ等の国で広がる Public Data の世界。国家の持つ「強力な」データが生のまま公開されることにより、新しいサービスが民間から生まれてくるという世界の話です。

特に id:pho とは、データの世界、情報の世界について何度も語り合いました。上に挙げた話は全て、彼と最低一度は議論した話です。彼との議論の一端はこちらで読むことができます。……少々お酒が入っていますけど。


このような知の旅行を経てたどりついた結論は、やはり世界はオープンデータに向かっていき、そこではデータを操る技術に長けたものが力を持つのだろうということです。


研究でも仕事でも、データ集めに苦労しなかった、なんて人はおそらく皆無でしょう。欲しいデータというのは厳重に隠されていたり、数年に一度しか取得できなかったり、やたらと高額だったりととにかくコストがかかります。そうしたデータが無料で、おっと、自由に手に入れることができたらどれほどうれしいことでしょう。

何をバカな、ですって? かつてはオープンソースの世界、フリーソフトウェアの世界がそう言われていました。ほんの20年前の話です。同じような話としてフリーデータ、オープンデータの世界があってもおかしくないと思うのです。

もちろん、インターネットが普及してきた昨今、世の中に公開されているデータというのは爆発的に増加しました。でも多分、まだまだ足りません。

Googleはクローズドなデータで利益を上げています。Google だけではありません。企業、国家、有史以来情報は力であり、武器であり、これを独占し活用した組織が大きく勢力を拡大してきました。暗号化ソフトウェアが兵器扱いされているという事実がこのことをよく表しています。

私は、Google の急所はまさにこのデータではないかと思うのです。彼らの最大の武器であるデータは、しかしながらクローズドです。かつてマイクロソフトがクローズドなソフトで利益を上げ、そして今クローズドであるが故に苦境に立たされているように。

オープンなデータの時代はきっと来ます。これが今の私の結論です。


データがオープンになるとして、どのように生きていけばいいのでしょう? id:marqs は言いました、「いつか全てのエンジニアがデータマイニングを必要とする時代が来る」と。

オープンデータの世界において、コンピュータエンジニアは非常に大きなアドバンテージを持っています。コンピュータの中にある大量のデータの意味を知っているからです。我々にとって大事なsyslogも一般人にはただの意味不明な文字の羅列ですし、SQLを知らない人にとっては単純な一覧すら取得できないデータベースも、我々の手にかかれば自由自在に加工できます。

だからこそ id:marqs の言うように、エンジニアは直接的なデータの意味だけでなく、そのデータを元にどういったインフォメーションを引き出せるか、どうすればそのインフォメーションを引き出せるかを知るべきなのです。ソースが公開されていることが、一般人にとって「タダで使える」以上の意味がないのと同様、データが公開されていてもそれの意味や活用手段を知らなければ意味がありません。

もしかしたら技術屋だけではないかもしれません。全ての知識人、ホワイトカラーがデータリテラシーデータマイニングを必須の教養とする時代がくるかもしれません。PCもケータイも使えますがデータだけが使えませんという人が淘汰される、新たなデジタルディバイドの到来などというのも可能性としてはあります。しかしデータを理解し操る術を知っていれば、自分の専門領域においてはただ生き残れるだけでなく主導権を握ることさえできるかもしれません。


もちろん、ここに挙げた話は全て私の妄想であり、空想であり、机上の空論です。しかし、こうした考えの先にはきっと何かあるのではないかと思っています。だから今回、自分の考えを文章にまとめ、オープンな情報の一部としてこの宇宙に放り投げてみることにしました。もし、読んでくれたあなたがオープンなデータの世界に対し少しでも関心を示してくれたらとてもうれしいです。それがたとえ反対の意志であったとしても。