Hadoopソースコードリーディング第6回
概要
イベント名 | Hadoopソースコードリーディング第6回 |
URL | http://atnd.org/events/10425 |
日時 | 2010/12/17 19:00 - 21:30 |
場所 | 楽天株式会社 |
関連リンク
- twitterハッシュタグ
- Ust http://www.ustream.tv/recorded/11480862
- Togetter
- http://togetter.com/li/80707
- (私の記事は個人的なメモで、間違った部分も多いため併読することをおすすめします)
NTTデータ 山下真一さん Hadoop World NYC 2010 レポート
Hadoop World NYC 2010 に参加して、気になった講演などの紹介など。
HW2010 基礎データ
-
- Cloudera 主催
- 900名参加
- HW2009は500名ぐらい
- 日本人は3〜40名?
- Hadoop Summit(6月ぐらいに西海岸でやったやつ)も900名ぐらい
- アジェンダ
- http://www.cloudera.com/company/press-center/hadoop-world-nyc/agenda/
- 事例紹介が半分
- Hadoop関連製品の紹介が半分
- 技術的トークは2,3個ほど
Key Note 1 (Mike Olson, Cloudera)
- 参加者アンケート
- 平均66ノード、114TB
- 合計60PB以上
- でもいろんな人に話を聞いた感じだと、多くの企業は10ノード以下とかでやっていてまだ始めたばかりらしい
Key Note 2 (Tim O'Reilly)
- Internet Operating System is Data Operating System
- リアルタイム処理
- センサープラットフォーム
- 予測分析
eBay
AOL
Intel
- Hadoop性能評価をやった
- テスト処理内容
- ワードカウント
- テラソート
- テスト機能内容
- HT
- HTありだと10-20%性能アップ
- CPUによる違い
- 古いCPUよりも性能がよくなってることを説明
- HT
リクルート
- 社内の情報収集にで Hadoop + Hive と DWH を評価
その他
まとめ
- データ分析用途が増えてきてる
- BIベンダによるBI製品の連携が活発化
- 技術を解決する時代は終わり、経営課題などのより上位の課題にシフト
- 日本人もいっぱいきてたし、もっと情報発信しようぜ!
三上さん @shun0102 HDFSソースリーディング第2回
Hdfsソースコードリーディング第2回
View more presentations from shun0102.
HDFS-265、append機能についての話。
基本知識
- 用語定義
- ネームノードにおけるブロックは「ブロック」
- データノードにおけるブロックは「レプリカ」
- 現状の課題
- 現在のレプリカの状態遷移だと、オープン中にファイルが全部ロストする危険がある
- appendは同一ファイルを何度もオープンすることになるのでロストの危険が拡大する
- ゴール
- append前のデータへの強い耐障害性
- HFlush*1したデータに対するベストエフォートの耐障害性
- atomicではない
5つの状態
- Finalized
- Rbw
- Replica Being Written to
- オープンされるファイルの最後のブロックはこれ
- 障害時に可能な限り保持
- Rwr
- Replica Writing to be Recovered
- データノード再起動時、全ての rbw は rwr になる
- append されることはない
- クライアントが生きてたら無効化される、死んでたらリースリカバリで復旧を試みる
- Run
- Replica Under Recovery
- 復旧中
- Temporary
- レプリカ作成とか
データ領域
- dfs.data.dir の中身
- current: finalized のデータ
- リブートしてもそのまま
- tmp: temporary のデータ
- リブートすると削除
- rbw: rbw, rwr, rur のデータ
- リブートすると rwr に変更される
- current: finalized のデータ
ネームノードのブロックの状態
- UnderConstruction
- write中
- UnderRecovery
- リカバリ中
- Commited
- finalized になったが ack 前
- Complete
- ack 完了
豊月さん @yutuki_r partake.in について
http://partake.in/ の紹介話。
- DB がフル Cassandra で動いている
- ATND との違い
- 仮参加機能
- 締切日機能
- Twitter 経由でリマインダ
- 非公開設定
- 複数管理者
- 関連イベント
- 関連イベントに登録してる参加者を優先参加
- 1/24発売の ASCII.technologies 3月号に開発裏話
IBM pandrbox さん @pandrbox BigSheets
- BigSheets 概要
jaql の話
BigSheets
- スプレッドシートで操作できる Web フロントエンド
- シートを作る = ジョブフローを進める、というコンセプト
- 非技術者向け
- バックエンドが Pig らしい
id:nokuno さん @nokuno Data Intensive Text Processing with MapReduce その2
nokuno さんの発表資料及びレポートはこちら
実は私は id:marqs と一緒に MapReduce本読書会をやっていたので全部知ってる内容でした。
だからメモとってませんすいません。
私のスライドを紹介しておきます。興味があればこちらもどうぞ。
他の章もありますのでこちらもどうぞ。現在1章、2章、6.1が公開されています。
3章、5章については担当者の id:marqs の気分次第です。
第1回MapReduce本読書会 1,2章
第2回,第3回MapReduce本読書会 4章(上のスライドと同じ内容)
第4回MapReduce本読書会 6.1
*1:データノードに転送してackが戻ってくること