Part1 / Part2
2010/05/31 までにブックマークしたものをまとめました。
注: Part1 も大分更新してますので興味のある方はそちらもご覧ください。
更新情報
2010/06/20
- 新規追加
- HBase、Mahout、Cassandra、開発、構築、Streaming、Hive、Cloudera、Zookeeper
- Part1より移動
- Pig、EC2、MapReduce、HDFS
HDFS
- Hadoop DFS _ Introduction | Agile Cat --- in the cloud
- HDFSアーキテクチャに関するドキュメントの翻訳。
- Hadoop DFS Architecture_1 | Agile Cat --- in the cloud
- "データ・アクセスにおける遅延を低減するというより、データ・アクセスにおけるスループットを高めることに注力されている""HDFS アプリケーションは、write-once-read-many アクセス・モデルを必要とする"
- Hadoop DFS Architecture_2 | Agile Cat --- in the cloud
- データノードとネームノードの関係が図入りでわかりやすい
- Hadoop DFS Architecture_3 | Agile Cat --- in the cloud
- データレプリケーションポリシーの話とネームノードの話。特に起動時の話(セーフモード)について細かく書かれている
- Hadoop DFS Architecture _4 | Agile Cat --- in the cloud
- ネームノードにおけるEditLogとFsImageの話。データノードにおけるHDFSデータの話。
- Hadoop DFS Architecture _5 | Agile Cat --- in the cloud
- HDFSにおける耐障害性について書かれている。チェックサム、コアなファイルのマルチコピーなど。
- Hadoop DFS Architecture _6 | Agile Cat --- in the cloud
- データ書き込みとレプリケーション作成の仕組みについて書かれている。
- Hadoop DFS Architecture _7 | Agile Cat --- in the cloud
- HDFSへのアクセス方法やファイルのdelete/undeleteについて。
- Tom White, HDFS の信頼性(原題:HDFS Reliability) - Pac Learner
- Hadoop Distributed File System(slideshare)
- HDFSについての概要
- Hadoopのインストールとサンプルプログラムの実行 (2/3):CodeZine
- HDFSの概要説明が書かれている
- Google Groups
- HDFSへのアクセスユーザ - kikumotoのメモ帳
- HDFS: The Curse of the Singletons! The Vertical Scalability of Hadoop NameNode
- 分散ファイルシステムを調べたい - Hadoop Distributed File System (HDFS) - kikumotoのメモ帳
- HDFSの簡単な調査結果について書かれている
- 404 Not Found
- 設定ファイル hdfs-site.xml の公式パラメータ一覧。
- HDFSのマウント - kikumotoのメモ帳
- fuseによるhdfsのマウントの話
HBase
- HBase Goes Realtime
- HBase0.20の紹介。性能測定の結果や、Zookeeper統合の紹介もある
- Hbaseのキャッシュ設定についてのTwitterのログ - Guutaraの日記
- @tatsuya6502 氏によるHbaseのキャッシュ設定のアドバイスが書かれている。ハードウェアの調達方針についても記述あり。
- HBase Javaテーブル操作メモ(Hishidama's HBase Java table Memo)
- Hadoop HBase操作サンプル(Hishidama's Hadoop HBase sample Memo)
- HBase Performance Testing at hstack
- HBaseへのランダムget/put、及びmapreduceの性能測定の結果が載っている
-
- javaからHBaseへの接続手順について書かれている
- HBase vs Cassandra: why we moved | Dominic Williams
- HBase と Cassandra はそもそもの出自が理由で前者がデータウェアハウス向け、後者がリアルタイムデータ処理に向いているんじゃない、という話。
- ヒマをみつけてWeb開発 | Error
- "Cassandraは、Webなどの比較的一貫性を求められない用途に、HBaseはスケーリングした上である程度一貫性が求められる場合や、MapReduceのデータ解析力を生かした、データウェアハウスなどの用途に使う"
- Who Is Using HBase? • myNoSQL
- HBase と Cassandra のユーザが1枚のマップになっている。
- Arbitrarily anything...: Comparing PNUTS, HBase and Cassandra
- PNUTS,HBase,Cassandraの機能比較。表にまとまっててわかりやすい
Cassandra
- Running Hadoop MapReduce With Cassandra NoSQL | All Things Hadoop
- Hadoop, BigData and Cassandra with Jonathan Ellis | All Things Hadoop
- Cassandraプロジェクトのリーダー Jonathan Ellis へのインタビュー。podcast。
Zookeeper
- Apache ZooKeeper - Home
- 公式
- ZooKeeper 3.3.0 のインストール - どぅーちゅいむーにー
- Zookeeperのインストールレポート
- ZooKeeper/Zab - Hadoop Wiki
- Zookeeperで使われるプロトコルらしい。
開発
- Hadoop プログラムの単純なデバッグ方法について - takahi-iの日記
- 標準エラー出力を使用する方法と Context オブジェクトを利用する方法について書かれている
- Jonhnny Weslley: SHadoop
- Installing hadoop development cluster on Windows and Eclipse -- Introduction
- ClouderaでインストールされてるHadoopにパッチを当ててみた、、というか直接弄ってみた★ - (゚∀゚)o彡 sasata299's blog
- 入力ファイルを見つけられないときに、処理を中断するのではなくスキップして続行させるための改造方法が書かれている
- Hadoopモデリング座談会メモ
- Hadoopは業務システムに汎用的に適用できる可能性がある一方、設計・開発・運用の面でまだまだ課題が多い、という話が書いてある
- Debugging MapReduce Programs With MRUnit | Cloudera Developer Blog
- デバッグツールMRUnitの紹介ページ
- Hadoopを使いこなす(3) - Yahoo! JAPAN Tech Blog
- Yahoo内での実例を元に、カスタマイズのポイントについて説明されている
構築
- Hadoopセットアップ - Meta Search
- マルチノードでの構築方法について簡単にまとめられている。
MapReduce
- 公式のチュートリアルも読もう
- Mapreduce & Hadoop Algorithms in Academic Papers (updated)
- MapReduce - naoyaのはてなダイアリー
- MapReduceの解説とサンプルプログラムがある
- Hadoopのインストールとサンプルプログラムの実行 (3/3):CodeZine
- mapreduceの概要、背景とHadoop上でのmap,reduceのサンプルスクリプトが書いてある
- 自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記
- Mapreduce & Hadoop Algorithms in Academic Papers (3rd update)
- mapreduceアルゴリズムについての論文まとめリンク。随時更新中。
- Cloudera による MapReduce プログラミング入門
- Introduction to "Cloud Computing" (Fall 2008)
- メリーランド大学で行われた、mapreduceアルゴリズムの半期分の講義。
-
- 上記の講義資料の1つ。最短経路問題を、mapreduce上では並列BFSで解くという話が書かれている
Streaming
- 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み:Ruby Freaks Lounge|gihyo.jp … 技術評論社
- 第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む:Ruby Freaks Lounge|gihyo.jp … 技術評論社
- Streamingそのままだとmap,reduce中に外部データを取り込むことができないが、-catすることでデータを取り込む方法が書かれている。クックパッドの事例の技術的な側面について書かれている
- Hadoop Streaming で外部ファイルを扱う方法のまとめ - (゚∀゚)o彡 sasata299's blog
-
- file や -cacheFile オプションについての説明や、その時のデータの流れについての説明がある。
-
- Hadoop Streamingを動かしてみる - Seeking for my unique color.
Pig
- SQLとMap-Reduceのあいだ:Pig Latin - 象と戯れ - postgresqlグループ
- "Map-Reduce(とそのラッパであるSawzall)は処理やデータ構造が頑固すぎてちょっと分析みたいな用途には面倒なことが多すぎるよね、ということで宣言的且つSQLによく似た変態的言語を作りました、というのが趣旨"
- YDN Blog | Yahoo Blog - Yahoo
- Hadoop, Pig, and Twitter (NoSQL East 2009)
- TwitterによるPigの紹介プレゼン。Pigでどのようなデータを処理するかなども書かれている。
- Hadoop : Twitter よ、お前もか! | Agile Cat --- in the cloud
- 日本語による上記の紹介記事
- Google Drive Viewer
- Cloudera による Pig 入門
- Pig Tutorial
- Pigのチュートリアル。localモードならJavaだけでいいらしい
Hive
- Google Drive Viewer
- Cloudera による Hive 入門
Amazon EC2/S3+Hadoop / Amazon Elastic MapReduce
- Amazon Web Services Blog: Taking Massive Distributed Computing to the Common Man - Hadoop on Amazon EC2/S3
- 2008年2月の記事。EC2上でのHadoop動作事例
-
- 2007年11月、NewYorkTimesがEC2+Hadoopで大量の画像データを処理した話
- blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術 (1/3):CodeZine
-
- Elastic MapReduceの紹介と試用レポート。スクリーンショット入りでわかりやすい
- アマゾン、「Hadoop」を利用した「Amazon Elastic MapReduce」のベータサービスを開始 - CNET Japan
- With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer | TechCrunch
- Amazon Elastic MapReduce (Amazon EMR)
- 公式
- Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第二回 - (゚∀゚)o彡 sasata299's blog
- EC2上でHadoopを使える環境を構築するための手順が書かれている
- EC2上での分散処理(Hadoop)をローカルから実行 - (゚∀゚)o彡 sasata299's blog
- clouderaディストリビューションでのhadoop-ec2の使い方について書かれている
Cloudera Distribution
- Documentation
- Clouderaディストリビューションについての公式ドキュメント。インストール方法について一通り書かれている
-
- Cloudera Configurator を使ったインストール方法が書かれているが、これは現在使用不能になっている
- 確認日付 2010/05/28, 2010/06/20
- Cloudera Configurator を使ったインストール方法が書かれているが、これは現在使用不能になっている