勉強会発表「プログラマのためのHadoop入門」
id:kaigai の主催する勉強会で発表してきました。
Hadoop for programmer
View more presentations from shiumachi.
答えられなかった質問
- Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの?
- Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。
- Map中にデータ追加したらどうなるのか?
- さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。
- Streamingって具体的にどんな処理してるの?
- jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。
あとで調べときます。
今の世の中に出てるHadoop本って構築とか運用の話が多いんですよね。
でも、一旦HadoopのインフラができてしまえばMapReduceプログラミングができる技術者の需要は一気に高くなるはずです。
そういうプログラマ向けのHadoop本というのは来年あたり出るかもしれません。