Hadoopモデリング座談会#2
概要
イベント名 | Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第二回) |
URL | http://atnd.org/events/5987 |
日時 | 2010/07/26 18:00 - 20:00 |
場所 | スター研修センター 御茶ノ水 Sun(サン)1F |
twitterハッシュタグ | #hadoopModeling |
- スーツ若干多め
- 年齢やや高め
- 女性ほぼ皆無
#1 @shot6 大谷晋平
現状と特徴
設計パターン
- CQRS パターン(マイクロソフト)
- Command query responsibility segregation
- 更新系(アクション)と参照系(クエリ)をわける
- 更新系は内部状態を変える、参照系は変えない
- 更新系は現状を返さない、参照系は返す
- 一貫性保証をAP任せにすると破綻する。非合理的
- APは一貫性維持を指示するだけ
- Cassandra の Consistency Level とか
- APは一貫性維持を指示するだけ
新しいアーキテクチャ
課題
#2 佐藤一郎先生(NII) @ichiro_satoh
mapreduce 今昔
Hadoop 感想
- Google MapReduce はウェブインデクシング主体、つまりバックエンド処理
- Hadoop はフロントエンド用途に使おうとする動きが多い(さっきの話とか)
- Hadoop 使いたいために AP 作るのはやめた方がいい
- 高機能化には性能低下のリスクがつきまとうので Hadoop の機能追加は慎重に
- Hadoop 向け DSL 作ろうとしているが、Hadoop のためとか Mapreduce のためとかはやめた方がいい
- 必要とは思うが AP ごとに応じて設計されるべき
- 非機能要件のための DSL が重要
- 分散システムの隠蔽
- バッチ自動化
- Boom(UCBのDSL)
- 論理型言語
- プロトコル記述
- 投機的実行制御
データセンタから見た Hadoop
- 消費電力変動大
- Hadoop 専用システムは電力効率悪い
- バッチ処理だから実行タイミングは決まっている
- 複数の mapreduce を組み合わせるか、他の AP と共存すべき
- Google は電力負荷の平準化してる
- Hadoop は要因多すぎたり Java だったりするせいで電力モデルが作れない
- Datacenter as a Computer の話
- こんな文書を出すということは、つまり Google はデータセンターに興味がないということ
- サードパーティに任せるつもりかも?
- 中田さんがいて近日発売の翻訳書の宣伝してた
- (私の感想記事もどうぞ http://d.hatena.ne.jp/shiumachi/20091229/1262054679)
- こんな文書を出すということは、つまり Google はデータセンターに興味がないということ
- データセンタのOSが必要
- Mesos(UCB)
- データセンタのOSライクな枠組み
- Mesos(UCB)
トレンド
- インタラクティブなデータ解析
- オンライン処理
- Hive とか Pig とか
- リアルタイム処理化
- 高速処理
- 時間制約
- バッチ処理では結構重要
- ストリーム処理
- 連続的な入出力処理
Future
- 特定のシステム構成を前提に最適化は不可能
- クラウド環境
- プロバイダになるかユーザを選ぶか
- ユーザになるとプロバイダにデータを読み取られ続ける
- 従量課金がクラウドの基本
- うまい処理とは料金が少ない処理のこと
- 利用料金が見積もれる言語があればいい
- データビジネス
#3 @ashigeru あらかわしげる
変更耐性
- 旧来:段階的詳細かを元にしたシーケンス
- DAG:Predecessors と Successors 両方に影響
- 対処法案(どれも不完全)
- フロー全体で共通のモデル
- 動的型付け
- タプル+型推論
- 追加カラムを別フローに切り出す
- 常に全データが流れてくる仮定をおく
原子化
- 多重スケジューラで可能?
併合化
- 同一バッチを併合できるか?
#4 座談会
MS 萩原さんも参加。
- 佐藤さん
- データセンタOS の話は今年に入ってから
- これからの話
- 基本は従来のOSと同じ
- リソース管理
- スケジューリング
- シェアリング
- つまりいかに速く見せるかが重要
- データセンタOSではそれに加えて消費電力を考える必要がある
- 計算パラダイム
- 非同期はお手上げ。力技で頑張ってほしい
- データセンタOS の話は今年に入ってから
- 大谷さん
- クラウドOSは開発者にとってしきいの高い領域になりつつある
- 萩原さん
- あらかわさん
- モデル検査が取り入れられるタイミングが来る
- 実際に動くプログラムにするのはコンパイラではなく人
吉岡さん(id:hyoshiok)からの質問: 今 Google では何がホットなのか?
以上