Hadoopソースコードリーディング第6回

概要

イベント名 Hadoopソースコードリーディング第6回
URL http://atnd.org/events/10425
日時 2010/12/17 19:00 - 21:30
場所 楽天株式会社

関連リンク

NTTデータ 山下真一さん Hadoop World NYC 2010 レポート

Hadoop World NYC 2010 に参加して、気になった講演などの紹介など。

HW2010 基礎データ
Key Note 1 (Mike Olson, Cloudera)

スライド

  • 参加者アンケート
    • 平均66ノード、114TB
    • 合計60PB以上
    • でもいろんな人に話を聞いた感じだと、多くの企業は10ノード以下とかでやっていてまだ始めたばかりらしい
Key Note 2 (Tim O'Reilly)

ビデオ

  • Internet Operating System is Data Operating System
    • リアルタイム処理
    • センサープラットフォーム
    • 予測分析
eBay

スライド ビデオ

  • 2010/05 評価用クラスタ500台
  • 2010/11 プロダクションに投入
    • 16PB、8500個のプロセッサ(2000台くらい?)
  • 入力データ
    • クリックストリーム
    • DWH
  • Ganglia/Nagios、Hive、Oozie、Mahout、Pig、Hive、Streamingなどを使っている
  • セキュリティに SAML 使っている
AOL

スライド ビデオ

  • 3種のクラスタ
    • 広告用
    • 検索用
    • コンテンツ用
  • 入力データ
    • コンテンツにビーコンを埋め込む
  • 規模
    • 初期は50台の空きサーバ
    • 現在はまだ評価中とのこと
  • Mahout でレコメンデーションをやったりしてる
  • Hadoop の出力を Cassandra、Redis、MySQLに放り込むなんてのもやってる
Intel

スライド ビデオ

  • Hadoop性能評価をやった
  • テスト処理内容
    • ワードカウント
    • テラソート
  • テスト機能内容
    • HT
      • HTありだと10-20%性能アップ
    • CPUによる違い
      • 古いCPUよりも性能がよくなってることを説明
GE

スライド ビデオ

リクルート
  • 社内の情報収集にで Hadoop + Hive と DWH を評価
Digital Reasoning

スライド

  • 米国陸軍での事例
    • 組織→グループ→個人の多層構造における関係性の評価
    • 自社製品の Synthesys を使用
その他
まとめ
  • データ分析用途が増えてきてる
  • BIベンダによるBI製品の連携が活発化
  • 技術を解決する時代は終わり、経営課題などのより上位の課題にシフト
  • 日本人もいっぱいきてたし、もっと情報発信しようぜ!

三上さん @ HDFSソースリーディング第2回

HDFS-265、append機能についての話。

基本知識
  • 用語定義
    • ネームノードにおけるブロックは「ブロック」
    • データノードにおけるブロックは「レプリカ」
  • 現状の課題
    • 現在のレプリカの状態遷移だと、オープン中にファイルが全部ロストする危険がある
    • appendは同一ファイルを何度もオープンすることになるのでロストの危険が拡大する
  • ゴール
    • append前のデータへの強い耐障害性
    • HFlush*1したデータに対するベストエフォートの耐障害性
      • atomicではない
5つの状態
  • Finalized
  • Rbw
    • Replica Being Written to
    • オープンされるファイルの最後のブロックはこれ
    • 障害時に可能な限り保持
  • Rwr
    • Replica Writing to be Recovered
    • データノード再起動時、全ての rbw は rwr になる
    • append されることはない
    • クライアントが生きてたら無効化される、死んでたらリースリカバリで復旧を試みる
  • Run
    • Replica Under Recovery
    • 復旧中
  • Temporary
    • レプリカ作成とか
データ領域
  • dfs.data.dir の中身
    • current: finalized のデータ
      • リブートしてもそのまま
    • tmp: temporary のデータ
      • リブートすると削除
    • rbw: rbw, rwr, rur のデータ
      • リブートすると rwr に変更される
ネームノードのブロックの状態
  • UnderConstruction
    • write中
  • UnderRecovery
    • リカバリ中
  • Commited
    • finalized になったが ack 前
  • Complete
    • ack 完了

豊月さん @ partake.in について

http://partake.in/ の紹介話。

  • DB がフル Cassandra で動いている
  • ATND との違い
    • 仮参加機能
    • 締切日機能
    • Twitter 経由でリマインダ
    • 非公開設定
    • 複数管理者
    • 関連イベント
      • 関連イベントに登録してる参加者を優先参加
  • 1/24発売の ASCII.technologies 3月号に開発裏話

IBM pandrbox さん @ BigSheets

IBMhadoop関連製品の紹介。

  • BigSheets 概要
    • InfoSphere BigInsights の一部
    • Hadoopベース
    • 大企業相手だとhadoopの上にいろいろつけたがるのでその辺を共通化しちゃおうというコンセプト
    • まだ製品発表していないソリューション
jaql の話
  • JSON Query Language
    • 準構造データのクエリ処理
    • ミニクラスタが入っているので、jaql shell を起動すれば hadoop クラスタなしに動く
      • pig local みたいなものなのだろう
BigSheets
  • スプレッドシートで操作できる Web フロントエンド
  • シートを作る = ジョブフローを進める、というコンセプト
  • 非技術者向け
  • バックエンドが Pig らしい
余談

IBMオープンソースを自社で使うときは必ず全部のコードのインスペクションをやるらしい。すごい。

id:nokuno さん @ Data Intensive Text Processing with MapReduce その2

nokuno さんの発表資料及びレポートはこちら

実は私は id:marqs と一緒に MapReduce本読書会をやっていたので全部知ってる内容でした。
だからメモとってませんすいません。

私のスライドを紹介しておきます。興味があればこちらもどうぞ。


他の章もありますのでこちらもどうぞ。現在1章、2章、6.1が公開されています。
3章、5章については担当者の id:marqs の気分次第です。

第1回MapReduce本読書会 1,2章
第2回,第3回MapReduce本読書会 4章(上のスライドと同じ内容)
第4回MapReduce本読書会 6.1

*1:データノードに転送してackが戻ってくること