勉強会発表「プログラマのためのHadoop入門」

id:kaigai の主催する勉強会で発表してきました。


答えられなかった質問

  • Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの?
    • Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。
  • Map中にデータ追加したらどうなるのか?
    • さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。
  • Streamingって具体的にどんな処理してるの?
    • jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。


あとで調べときます。


今の世の中に出てるHadoop本って構築とか運用の話が多いんですよね。
でも、一旦HadoopのインフラができてしまえばMapReduceプログラミングができる技術者の需要は一気に高くなるはずです。
そういうプログラマ向けのHadoop本というのは来年あたり出るかもしれません。