科学と非科学の迷宮

Hadoopソースコードリーディング第6回

雑記

概要

イベント名	Hadoop ソースコードリーディング第6回
URL	http://atnd.org/events/10425
日時	2010/12/17 19:00 - 21:30
場所	楽天株式会社

関連リンク

twitterハッシュタグ
- #hadoopreading
Ust http://www.ustream.tv/recorded/11480862
Togetter
- http://togetter.com/li/80707
- (私の記事は個人的なメモで、間違った部分も多いため併読することをおすすめします)

NTTデータ山下真一さん Hadoop World NYC 2010 レポート

Hadoop World NYC 2010 に参加して、気になった講演などの紹介など。

HW2010 基礎データ

- Cloudera 主催
- 900名参加
  - HW2009は500名ぐらい
  - 日本人は3〜40名？
  - Hadoop Summit(6月ぐらいに西海岸でやったやつ)も900名ぐらい
アジェンダ
- http://www.cloudera.com/company/press-center/hadoop-world-nyc/agenda/
- 事例紹介が半分
- Hadoop関連製品の紹介が半分
- 技術的トークは2,3個ほど

Key Note 1 (Mike Olson, Cloudera)

参加者アンケート
- 平均66ノード、114TB
- 合計60PB以上
- でもいろんな人に話を聞いた感じだと、多くの企業は10ノード以下とかでやっていてまだ始めたばかりらしい

Key Note 2 (Tim O'Reilly)

Internet Operating System is Data Operating System
- リアルタイム処理
- センサープラットフォーム
- 予測分析

eBay

スライドビデオ

2010/05 評価用クラスタ500台
2010/11 プロダクションに投入
- 16PB、8500個のプロセッサ(2000台くらい？)
入力データ
- クリックストリーム
- DWH
Ganglia/Nagios、Hive、Oozie、Mahout、Pig、Hive、Streamingなどを使っている
セキュリティに SAML 使っている

AOL

スライドビデオ

3種のクラスタ
- 広告用
- 検索用
- コンテンツ用
入力データ
- コンテンツにビーコンを埋め込む
規模
- 初期は50台の空きサーバ
- 現在はまだ評価中とのこと
Mahout でレコメンデーションをやったりしてる
Hadoop の出力を Cassandra、Redis、MySQLに放り込むなんてのもやってる

Intel

スライドビデオ

Hadoop性能評価をやった
テスト処理内容
- ワードカウント
- テラソート
テスト機能内容
- HT
  - HTありだと10-20%性能アップ
- CPUによる違い
  - 古いCPUよりも性能がよくなってることを説明

GE

スライドビデオ

Twitter や youtube などの感情分析
- MySQLだと2.5日かかってたのがHadoopだと1時間になった

リクルート

社内の情報収集にで Hadoop + Hive と DWH を評価

Digital Reasoning

米国陸軍での事例
- 組織→グループ→個人の多層構造における関係性の評価
- 自社製品の Synthesys を使用

その他

RHIPEの話とか、Hive + Rの話とか
Hadoop 関連製品の紹介
- pentaho スライド
- membase スライドビデオ
- karmasphere スライド1 ビデオ1 ビデオ2
- Quest software スライド http://www.cloudera.com/videos/hadoop-world-2010-quest-exchanging-data-with-the-government-guy-harrison:ビデオ
展示では HP の Hadoop向けサーバがあったとか(アプライアンス？)

まとめ

データ分析用途が増えてきてる
BIベンダによるBI製品の連携が活発化
技術を解決する時代は終わり、経営課題などのより上位の課題にシフト
日本人もいっぱいきてたし、もっと情報発信しようぜ！

三上さん @shun0102 HDFSソースリーディング第2回

Hdfsソースコードリーディング第２回

View more presentations from shun0102.

HDFS-265、append機能についての話。

基本知識

用語定義
- ネームノードにおけるブロックは「ブロック」
- データノードにおけるブロックは「レプリカ」
現状の課題
- 現在のレプリカの状態遷移だと、オープン中にファイルが全部ロストする危険がある
- appendは同一ファイルを何度もオープンすることになるのでロストの危険が拡大する
ゴール
- append前のデータへの強い耐障害性
- HFlush*1したデータに対するベストエフォートの耐障害性
  - atomicではない

5つの状態

Finalized
Rbw
- Replica Being Written to
- オープンされるファイルの最後のブロックはこれ
- 障害時に可能な限り保持
Rwr
- Replica Writing to be Recovered
- データノード再起動時、全ての rbw は rwr になる
- append されることはない
- クライアントが生きてたら無効化される、死んでたらリースリカバリで復旧を試みる
Run
- Replica Under Recovery
- 復旧中
Temporary
- レプリカ作成とか

データ領域

dfs.data.dir の中身
- current: finalized のデータ
  - リブートしてもそのまま
- tmp: temporary のデータ
  - リブートすると削除
- rbw: rbw, rwr, rur のデータ
  - リブートすると rwr に変更される

ネームノードのブロックの状態

UnderConstruction
- write中
UnderRecovery
- リカバリ中
Commited
- finalized になったが ack 前
Complete
- ack 完了

豊月さん @yutuki_r partake.in について

http://partake.in/ の紹介話。

DB がフル Cassandra で動いている
ATND との違い
- 仮参加機能
- 締切日機能
- Twitter 経由でリマインダ
- 非公開設定
- 複数管理者
- 関連イベント
  - 関連イベントに登録してる参加者を優先参加
1/24発売の ASCII.technologies 3月号に開発裏話

IBM pandrbox さん @pandrbox BigSheets

IBMのhadoop関連製品の紹介。

BigSheets 概要
- InfoSphere BigInsights の一部
- Hadoopベース
- 大企業相手だとhadoopの上にいろいろつけたがるのでその辺を共通化しちゃおうというコンセプト
- まだ製品発表していないソリューション

jaql の話

JSON Query Language
- 準構造データのクエリ処理
- ミニクラスタが入っているので、jaql shell を起動すれば hadoop クラスタなしに動く
  - pig local みたいなものなのだろう

BigSheets

スプレッドシートで操作できる Web フロントエンド
シートを作る = ジョブフローを進める、というコンセプト
非技術者向け
バックエンドが Pig らしい

余談

IBM はオープンソースを自社で使うときは必ず全部のコードのインスペクションをやるらしい。すごい。

id:nokuno さん @nokuno Data Intensive Text Processing with MapReduce その2

nokuno さんの発表資料及びレポートはこちら

実は私は id:marqs と一緒に MapReduce本読書会をやっていたので全部知ってる内容でした。
だからメモとってませんすいません。

私のスライドを紹介しておきます。興味があればこちらもどうぞ。

Data-Intensive Text Processing with MapReduce ch4

View more presentations from shiumachi.

他の章もありますのでこちらもどうぞ。現在1章、2章、6.1が公開されています。
3章、5章については担当者の id:marqs の気分次第です。

第1回MapReduce本読書会 1,2章
第2回,第3回MapReduce本読書会 4章(上のスライドと同じ内容)
第4回MapReduce本読書会 6.1

関連記事

*1:データノードに転送してackが戻ってくること