2010年まとめ:データと向き合った一年

はじめに:2010年弾丸ツアー


今年一年を一言でまとめると、「データと向き合った」一年でした。

2009年の終わり、私は The Datacenter as a Computer の読書会を通して、分散システムによる大量なデータの処理がこれからの時代にもっと重要になるということを学びました。

The Datacenter as a Computer 読書会

その流れを受け、1月には id:marqsid:daisukebe とともに「集合知プログラミング」の読書会を開き、データマイニングの基礎を勉強しました。
大量のデータを扱う前に、小さなデータを扱う術を身につける必要があると思ったからです。

第1回集合知プログラミング読書会

第2回/第3回集合知プログラミング読書会


3月に The Economist で情報マネジメントの特集を読んで、"big data" のトレンドについて確信を持ちました。
The Economist で大きく取り上げられるものの多くは、その半年から1年後には一大ブームとなるのです。

The Economistでの情報マネジメント特集


4月から6月にかけては、Google Code Jam にチャレンジし、アルゴリズムについての知識と「速く正確に動くコードを速く正確に作る」技術を学びました。
また、Python を身につけたのもこのコンテストがきっかけです。
このコンテストを経験していたからこそ、MapReduce の処理を書くのが楽になったと言えるでしょう。

Google Code Jam2010事前準備メモ

Google Code Jam 2010 QR 感想

Google Code Jam 2010 Round1 感想

Google Code Jam 2010 Round2 感想


夏になると、データの可視化に興味が移りました。
「ビジュアライジング・データ」を読んで、可視化というのはデータを見やすくするだけでなく、新たな視点・発見を得るために非常に有用なツールであることを知りました。
成果物として何かを残したわけではないので、このあたりの話はブログの記事にしていません。


ビジュアライジング・データ ―Processingによる情報視覚化手法

ビジュアライジング・データ ―Processingによる情報視覚化手法


そして Hadoop です。仕事で使い始めたのは 4月からですが、本格的にのめり込みだしたのは秋頃からです。
今までの勉強を通して、データを処理することがどれほど重要なことか十分に理解していました。
ようやく、この Hadoop がどれほど重要なデータ処理ツールかを理解することができたのです。
縁あって Hadoop コミュニティの方々と仲良くなれたことも幸いでした。
非常にレベルの高い人たちの刺激を受けたこともあり、Hadoop 一色に染まった状態でこうして年末を迎えることになったわけです。

で、なんでデータなの?


さて、1年を振り返るにあたり、一度原点に立ち戻ることにします。
なぜ自分は「データ」に興味を持ったのか?
まず最初のきっかけは、「その数学が戦略を決める」という本でした。
この本には大量データの処理やデータマイニングが職人技の世界を脅かす話が載っています。
データの力でアナログの世界を壊すという話にとても興奮したものです。


その数学が戦略を決める

その数学が戦略を決める


かつて id:marqs
「これからの時代は全てのエンジニアがデータマイニングの技術が必須になる」
と言いました(本人は覚えてないでしょうが)。
今、この言葉は自分の中でこのように変換されています。
「これからの時代は全てのエンジニアがデータエンジニアになる」
さらに先を見据えて言うと、
「これからの時代は全てのエンジニアとホワイトカラーがデータエンジニアになる」
と、私は思っています。


まず、データはこれからもどんどん増えていきます。
エンジニアは MySQLOracle、スーツ屋さんは Excel で完結していた時代はもうおしまいです。
これからは、学生アルバイトが Google あるいは Amazon 上の分散システムを駆使して大量のデータを操り、そこらの新卒社員が統計学データマイニング機械学習を駆使して新たな視点を創りだす時代です。
「大量のデータなんてうちにはないよ?」
と思う方もいるかもしれませんが、それはただ保存していなかっただけのことです。
安価なデータの保存方法、処理方法が確立された今、そんな言い訳は通用しません。


そして、データ処理の時間に対する要求もどんどん高くなっています。
たとえば今処理しているデータが 30GB で 1h かかっているとしましょう。
これからは、30GB を 1m で処理してくれと言われるかもしれません。
これができるエンジニアとできないエンジニアの間には明確な差があります。
スーツ屋さんだって笑っていられません。
ライバル企業は、今この瞬間にも大量のデータを駆使して新しいビジネスを立ち上げています。
自分たちも、データをかき集めて分析する必要があるわけです。それも今すぐに!
そのとき、どんなツールを使えばそれができるのか、そもそもどんな処理方法を使えばその分析ができるのか、ということを知っているかどうかは非常に大きな違いになります。
データはお金になるのです。


とはいえ、逆に考えると夢のような世界が広がっているわけです。
上記の通り、データはお金になります。お金が大好きな人にとっては勉強して損はない分野です。
計算アルゴリズムを学んでいる人にとっても楽しい分野でしょう。性能差がはっきりでますからね。
それ以外の業界にいる人も、一度「その数学が戦略を決める」を読んでいただければ、他人事ではないということがよくわかるはずです。
あらゆる業界において、誰もがパラダイムシフトを起こすチャンスがあるわけです。
どうです、私が「データ」にはまる理由を少しご理解いただけたでしょうか。

2011年に向けて


今年は間違いなく激動の年でした。クラウド、スマートフォン電子書籍、そしてもちろん Hadoop や NoSQL。
来年はもっともっと変わると思います。
「データ」にまつわる問題もたくさん出てくるでしょう。電子書籍の「自炊」周りなどはその最たる例です。
そういったもろもろの問題・課題に挑戦できるかと思うと、今から楽しみで仕方ありません。
私は当面は Hadooper としてやっていくでしょうが、それと同時にデータエンジニアでありたいと思っています。
そのためには知識も技術も全く足りません。
Hadoop そのものについても知らないことがたくさんありますし、統計学の知識やマイニングの知識、可視化の知識も増やしたいです。
また、データの収集・保管方法だって学ぶことがたくさんあります。
そもそも自分が知っているデータの種類なんてほんのわずかです。世の中にどんなデータがあるのかも知る必要があります。
書き始めるときりがないですね。


自分の能力はまだまだです。
焦ってもしょうがないので、一つ一つ身につけながらこのデータの世界を旅していこうと思います。
もしご興味のある方は、私と一緒に旅に付き合ってくれませんか?
あるいは、横で見てて野次を飛ばしてくれてもいいです。


きっと楽しい体験ができると思いますよ!