hadoop アドベントカレンダー 2011 1日目 CDH hadoop/hive/hbase を eclipse プロジェクトとしてインポートする

hadoop アドベントカレンダー 2011、1日目及びその他空いているところ全部を担当する @ です。

最初はサポートの話を書こうと思ったのですが、せっかくのアドベントカレンダーの初日なので少しだけ技術的なことを書くことにします。
あと最初に断っておきますが、私の書く記事は基本的に全て CDH ベースです。
(バージョンは CDH3u2)

今日は eclipse プロジェクトへのインポート方法を紹介します。
ドキュメント化されてるようで実はされてないっぽいので備忘録代わりに記載します。

ファイルのダウンロード、展開

ここから DL してください。

hadoop の場合は hadoop-0.20.2-cdh3u2.tar.gz です。

展開は普通に tar xf してください。

ant の実行

ant eclipse-files と叩いてください。すぐに終わります。

eclipse へのインポート

eclipse を開いて、[File] -> [Import] -> [Existing Projects into Workspace] と押していき、さきほど展開した hadoop のディレクトリを選択すれば OK です。

hive の場合

hadoop とほとんど同じです。DL して、ant eclipse-files して、eclipse にインポートすれば完了です。

hbase の場合

ant ではなく maven を使います。

ant eclipse-files ではなく mvn eclipse:eclipse とします。

一応これで動くと思います……というのは、普段は mvn -DdownloadSources=true -DdownloadJavadocs=true eclipse:eclipse としているためです。

簡単に確認はしましたけど、もし万一問題が発生する場合は私の使っているコマンドを試してください(すごく時間かかります)

他は hadoop, hive と同じです。

おまけ: コミュニティ版 hadoop trunk の場合

まず、ここから git clone してソースをとってきます。

mavenize が完了しているので mvn eclipse:eclipse としてください。

多分肝心の yarn でコンパイルがこけると思いますので、ここを参考に protocol buffers 2.4.0 以降を LD_LIBRARY_PATH に加えてください。



Mac OS X の場合は brew install protobuf で簡単に入ります。(2011/12/01 時点で最新の 2.4.1 が入る)

まとめ

普段ソースに触れる機会のない方でも、上記の手順を踏めば簡単にソースを読む環境を整えることができます。
hadoop 使ってばかりでソースなんて読む気もしないぜ! という方も、たまにはさらっと眺めてみてはいかがでしょうか。
数十万行ほどのソースですが、重要な箇所は一部なので以外とあっさり読めたりします。

明日は id:wyukawa @ さんです。