第2回/第3回集合知プログラミング読書会

もはや議事録ですらないメモ書きですが。

題材

作者: Toby Segaran,當山仁健,鴨澤眞夫
出版社/メーカー: オライリージャパン
発売日: 2008/07/25
メディア: 大型本
購入: 91人クリック: 2,220回
この商品を含むブログ (274件) を見る

第2回

日時	2010/01/31 10:00 - 12:00
場所	都内某所
挑戦者	id:marqs id:daisukebe id:shiumachi

今回の範囲と担当

範囲	担当	資料
5章	id:shiumachi	http://www.slideshare.net/shiumachi/programming-collective-intelligence-100131
4章	id:daisukebe	Coming soon...

質疑応答:4章ニューラルネットワーク

最初のコネクションは全くないの？
- 学習が前提なのでないということはない

hiddenノードは自分で定義するの？
- そうなる

実際にはどういうとこで使われている？
- カーナンバーの認識や新製品のユーザビリティテストに使う

第3回

日時	2010/02/13 10:00 - 12:00
場所	都内某所
挑戦者	id:marqs id:daisukebe id:shiumachi

今回の範囲と担当

範囲	担当	資料
6章	id:shiumachi	http://www.slideshare.net/shiumachi/programming-collective-intelligence-100213
7章	id:daisukebe	Coming soon...
8章	id:marqs	Coming soon...

k近傍法

id:marqs がk近傍法のサンプルプログラムを用意。
当初重みづけしてなくて精度がいまいちだったが、その場でみんなで単純なy=1/xで重みづけしてみたところ、結構精度が上がって驚いた。

感想

リコメンデーションとかスパムフィルタといった、現代のwebサービスやプログラムではありふれている「魔法のような技術」を簡単に作ることができるという点ではすごく面白かったです。
とはいえ、理論的ことが詳しく書いているわけでもないので、あくまで入門書という位置づけだと感じました。ここから先は自分で頑張ってね、という感じ。
特に9章のSVMなんかは理論的背景ゼロでただ使うだけなので、真面目に勉強するには適しません(だからこの勉強会は8章までで終了)
また、データの保存やら計算量やらを全く考慮していないソースコードなので、単にコピペするだけでは通常のシステムにおいては使い物になりません。
私の場合はPHPで実装していたのでそもそもソースコードほとんど読まずに自分で一から実装してました。

このデータと計算量の問題は、この「集合知プログラミング」に書いてあるような情報処理を行うにあたって避けては通れない問題です。扱うデータにもよりますが、データ量も既存のベタなWebアプリケーションに比べて軽く1,2桁増えることもあります(実際手元で動かしたときは、ちょっとしたデータだけで数百MB〜数GBいきました)こうした技術を使ってシステム組もうと思ったら真面目に設計する必要があるでしょう。(ディスクを増やすか、アルゴリズムを軽いものに変えるか)

それにしても、データマイニングの世界は面白いです。id:marqsが、「これからの時代は全てのエンジニアがデータマイニングの技術が必須になる」なんて言っているのも頷ける話です。一昔前は研究者がスパコンを使って実施していたのでしょうが、今はスパコン並のノートPCがあり、「集合知プログラミング」のような技術書が簡単に買えます。毎日たくさんのデータに触れているITのエンジニアがこうした技術を身につけたら、世界はもっと面白くなるでしょう。