関連リンク
(講演者の方は敬称略)
並列データ処理基盤を用いた並行バグ並列検査方式の検討 荒堀喜貴(東京工業大学)
目的: 並行バグ検査の高速化(並列化)
背景
前提とするプログラム実行モデル
- 複数スレッドが共有メモリを並行アクセス
- 並行 = 並列 + 擬似並列
- スレッド操作は fork/join, lock/unlock, wait/notify
- メモリモデルは Sequencial Consistency を仮定しない
並行バグの検査に特化した専用ツール
競合解析を基にきわどいスレッドインタリーブを合成
Maple: Active Scheduling
イベント履歴に基づく競合解析
アクセスイベントeを5つ組として定義
メモリオブジェクト
スレッドIDロック集合
…
この方式の問題
- イベント履歴に基づく競合解析の問題
- 複数スレッドによるイベント履歴操作衝突で高オーバヘッド
- 大規模分散データ処理技術の適用可能性が不明
マルチコアMapReduceによる競合解析
「リアルストレージワークロード特徴抽出のためのデータ収集蓄積技術」大江和一(富士通研究所)
ストレージのワークロードを自分たちで収集
2007.10 〜 2010.12
継続してログ収集ができたのは、最後の1.5年間
収集を行ったストレージシステム
スケールアウト型分散ストレージシステム
ワークロード収集を行った主なストレージシステム
Samba + backup : 35TB 数ヶ月単位のワークロードを収集
Samba 4.4TB (連続1.5年分)
生トレースの保存はあきらめ、1GB / min 単位で統計情報を抽出し、圧縮・保存
統計データの最大サイズ kb / 回 | 150 | 50 | |
統計データの最大サイズ gb / 月 | 6.2 | 2.1 | |
平均ユーザ数 | 1000 | 3000 | |
最大IOPS | 1500 | 2000 |
平均ドロップ率1%未満
全IOの7割が特定のブロックに集中
「ソーシャルデータを分析・可視化することで見えてくる人間行動」本郷寛(ユーザーローカル)
Twitter: バースト現象。ニュースの拡散性は指数的に減少していく
「単車の虎」に於けるアクセスログ収集・解析手法 今井陽太(Donuts)
データ量
- 3GB / day
- 3min 400GB
- 年間 4.8TB
- Bzip2 圧縮
なぜBzip2か
お金がないのでストレージ買いたくないから