これから Hadoop を学ぶ人向け読書ガイド

なんだかんだで Hadoop 周りの本も結構増えてきましたので下にまとめました。

抜けてるのもあると思うので(特に和書)、なんかお薦めありましたらコメントください。追加します。

タイプ別お薦め読書コース

短期間で全部読むのは不可能なので、とりあえず簡単にお薦めの読書コースを紹介します。

非技術者(営業や経営者など)

象本1章と徹底入門1章だけ読んどけばいいです。余裕があれば象本16章(ケーススタディ)。読んでる暇あったらその人件費で技術者にいいPC買ってあげてください。

技術者(共通)

象本読まないとかありえないです。

別に全部読む必要ないですが、とりあえず 1-10章ぐらいは目を通してください。

それも時間的に難しいならせめて3章か4章ぐらいまで目を通してください。

可能なら徹底入門と並行して読んでください。書き方の切り口が違う2つの書籍を読むことで理解が深まります。

Hadoop 技術者(構築・運用)

象本9-10章と徹底入門は必読です。

年内に刊行予定の Hadoop Operations も出たらすぐ買って読みましょう。

Hadoop 技術者(MapReduce アプリケーション開発者)

象本3-8章は当然読むとして、MapReduceデザインパターン3章と5章、Hadoop Hacks の MapReduce 周りを読んでください。

これも徹底入門の該当章(3-5章)と並行に読むといいでしょう。

Hadoop 技術者(SIer)

せめて象本と徹底入門はひと通り目を通しておいてください。

象本15章の Sqoop は提案時などに役に立つと思います。

Hiver

Hive 使う人は象本12章、徹底入門6章、Hadoop Hacks の Hive 周り、後は @ さん、 @ さん、 @ さんあたりを追いかけてください。

Pig 使い

Pig の本はちゃんと読みましょう。

HBase 技術者

象本 13-14章(特に zookeeper)、馬本、Hadoop Hacks。HBase は非常に難しいので、Hadoop と違い馬本以外の他の書籍にも全部目を通した方がいいと思われます。

あとは @ さんを追いかけてください。

HBase は本当に難しいので、本を読まずに web の情報だけで構築・運用するのは自殺行為です。絶対にやめてください。

データマイニング屋さん

私より詳しい人がたくさんいますのでその人達に聞いてください。

多分 MapReduce デザインパターン3章以降全部と、Mahout in Action あたりを読んでるのではないかと思われます。





以下、書籍のリストです。

Hadoop The Definitive Guide

Hadoop 第2版

Hadoop 第2版

出版社: オライリー・ジャパン

通称「象本」。Cloudera の Tom White 著。Hadoop のバイブルで、これを読まずして Hadoop を語ることは許されないレベルです。現在第3版が刊行されていて、日本語版は第2版まで翻訳されています。

Hadoop 徹底入門

Hadoop徹底入門

Hadoop徹底入門

出版社: 翔泳社

Treasure Data CTO の太田一樹と、NTTデータHadoop チームによって書かれた Hadoop 入門書。象本に比べ、運用周りに比重を置いているのが特徴です。

HBase The Definitive Guide

HBase: The Definitive Guide

HBase: The Definitive Guide

出版社: オライリー・ジャパン

通称はまだ定まってませんが、「馬本」とも言われています。Cloudera の Lars George 著。象本が Hadoop のバイブルならこちらは HBase のバイブルです。7月に初版の日本語訳が刊行されます。

HBase in Action

http://www.manning.com/dimidukkhurana/

出版社: Manning Publications

もう一つの HBase 本。Cloudera の Amandeep Khurana が著者の一人です。近日刊行予定。

HBase Administration Cookbook

HBase Administration Cookbook

HBase Administration Cookbook

出版社: Packt Publishing

第三の HBase 本。楽天の Yifeng Jiang 著。

Hadoop Hacks

Hadoop Hacks ―プロフェッショナルが使う実践テクニック

Hadoop Hacks ―プロフェッショナルが使う実践テクニック

出版社: オライリー・ジャパン

オライリー・ジャパンから出版されていて、英語版はありません。日本の Hadoop 界のエキスパート達がノウハウを詰め込んだ Tips 集。かなり上級者向けの内容で、かつ Mahout や Zookeeper など他の本であまり取り上げていないトピックについても詳しく書かれています。ちなみに私も CDH について寄稿しています。

MapReduce デザインパターン

Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理

Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理

出版社: オライリー・ジャパン

実は O'reilly に原著がありません。メリーランド州立大学の助教授にして現在 twitter に在籍している Jimmy Lin 著。MapReduce の高度な使い方の説明が書かれています。

Programming Pig

出版社: O'reilly

Hortonworks 所属にして Pig 作者の Alan Gates 著。Pig のバイブルです。日本語訳は未発売。

Hadoop Operations

http://shop.oreilly.com/product/0636920025085.do

出版社: O'reilly

Cloudera の Eric Sammer 著。Cloudera が培ってきた運用・構築のノウハウを詰め込んだ、実戦向きの本です。2012年末リリース予定で、Early Release 版は既に刊行されています。

Mahout in Action

http://manning.com/owen/

出版社: Manning Publications

Mahout の作者にして MapR のトップエンジニアである Ted Dunning も参加している Mahout のバイブル。

その他

英語で出版されている Hadoop の本ですが、あまり売れてるように見えません。