Hadoopリンクまとめ(1)
Part1 / Part2
更新履歴
2010/06/20
- リンク追加
- 入門、事例紹介、ニュース
- Part2へ移動
- EC2、Pig、MapReduce、HDFS
- 新規追加
- 性能測定
公式
- Welcome to Apache Hadoop!
- 日本語訳
- Hadoopユーザー会
- Welcome to Hadoop MapReduce!
- Welcome to Pig!
- "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語"
wikipedia
入門
- Hadoop入門(slideshare)
- Hadoopで、かんたん分散処理 - Yahoo! JAPAN Tech Blog
- Hadoopの簡単な使い方説明。図入りでわかりやすい。
- Hadoop & Big Data
- Cloudera社のHadoop概要説明
- Hadoop & Big Data
- Cloudera社のHadoop紹介。HDFSとMapReduceが図入りで簡単に説明されている
- Why Cloudera
- Hadoop、hBaseで構築する大規模分散データ処理システム (1/2):CodeZine
- Googleの基盤クローン Hadoopについて(slideshare)
- IBM notice: The page you requested cannot be displayed
- Hadoop: An Industry Perspective
- Distributed data processing with Hadoop, Part 1: Getting started
- hadoopの使い方入門。
事例紹介
- PoweredBy - Hadoop Wiki
- Hadoopのユーザ一覧。どのくらいの規模かもおおまかに書かれている。
- Hadoop Conference Japan 2009 #1(slideshare)
- 楽天での事例紹介。Hadoopによるレコメンデーションなど。技術的な細かい話はない
- Hadoop Conference Japan 2009 #2(slideshare)
- DWHからHadoop移行で成功事例、欧州広告企業 − @IT
- "ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している"pigやclojureを使ってPostgreSQLから4ヶ月で移行完了。100GB/dayのログを処理
- Why Europe’s Largest Ad Targeting Platform Uses Apache Hadoop | Cloudera Developer Blog
- クックパッドのデータ処理、たった5万円:日経ビジネスオンライン
- ページが見つかりませんでした
- "JPMorganChaseは金融系ではあるが積極的に新しいネット技術を採用することで知られている"Hadoop使ってるらしい
- 資料を公開いたしました!(クックパッドの裏側見せます in 大阪&名古屋) | クックパッド開発者ブログ
- クックパッド
- Yahoo! Mail antispam - Bay area Hadoop user group
- Yahoo!Mail における Hadoopを使ったアンチスパムシステムの解説。
- Twitter, Pig, and HBase. For Bay Area Hadoop User Group May 2010
- Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
- Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
- 上記への反論。mapreduce使わなくても真っ当なアルゴリズム使えば高速化できるよという話。
- 個人的にはmapreduceを活用した効率のよいアルゴリズムってこれから開発されてくるんじゃないかと思ってる
- その辺の話についてはいずれ記事にしたい
- 日本語版 Wikipedia の総単語数 - 武蔵野日記
- wikipedia相手にmapreduce使っている話の続き。
比較資料
技術情報(開発・構築・運用)
- Map/Reduce Tutorial
- 公式のチュートリアル
- Scala on Hadoop: Hadoop Conference - stanaka's blog(slideshareあり)
- Hadoop+Scalaの話
- http://www.slideshare.net/hadoopxnttdata/20091113-hadoop-conf-japan2009-v1a-clean(slideshare)
- heartbeatによるマスタノード冗長化の話が載っている
- Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く
- HadoopvsPython – アクセンスのおまけ
- Building Distributed Systems in Scala
- twitterのシステムについて(slideshare)
- Running Hadoop On Ubuntu Linux (Single-Node Cluster) - Michael G. Noll
- Gosuke Miyashita
- Hadoopを使いこなす(1) - Yahoo! JAPAN Tech Blog
- コーディングレベルでのカスタマイズ方法について書かれている
- Hadoopを使いこなす(2) - Yahoo! JAPAN Tech Blog
- Hadoop内の各クラスの説明とカスタマイズポイントについて書かれている
- Parallel LZO: Splittable Compression for Apache Hadoop | Cloudera Developer Blog
- 0.20.0で排除されたLZOを使うためのパッチの紹介とその適用について書かれている。
- Google基盤ソフトウェアのオープンソースクローンを使ってみる:CodeZine(コードジン)
- Hadoopのインストールとサンプルプログラムの実行 (1/3):CodeZine
- RHEL5,JDK1.6_06,Hadoop0.15.3でのインストール方法について書かれている
- 複数マシンへHadoopをインストールする (1/3):CodeZine
- Hadoop Streaming - naoyaのはてなダイアリー
- YDN Blog | Yahoo Blog - Yahoo
- Hadoopの負荷測定ツールGridmixの話。Gridmix3では本番環境での実行ログに基づいた、本番環境に近いクエリを生成してくれるらしい。
- Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _1 | Agile Cat --- in the cloud
- 上記の翻訳。
- Twitter Protobufs And Hadoop Hug 021709(slideshare)
セキュリティ
- Hadoop、セキュリティ強化でKerberos実装中 - Publickey
- Hadoopではユーザ認証がなかったのでKerberosで認証を実装しますよ、という話。
- Hadoop Security Preview(slideshare)
性能測定
- YDN Blog | Yahoo Blog - Yahoo
- HDFSのスケーラビリティについて書かれている。下は日本語によるまとめ。
- Google Groups
- Google Groups
- Google Groups
- Google Groups
ニュース等
blog等
未整理
未読だったり、上記のカテゴリに分類しにくいものをまとめました。
- 404 Not Found
- Advice on QA Testing Your MapReduce Jobs | Cloudera Developer Blog
- Cloudera Hadoop Training for Developersに参加した - developer’s delight
- 404 Not Found
- 10 Gen 20100217 Hadoop Bay Area(slideshare)
- MongoDBの紹介がメイン。Hadoopとの連携についても書かれている
- YDN Blog | Yahoo Blog - Yahoo
- YDN Blog | Yahoo Blog - Yahoo
- YDN Blog | Yahoo Blog - Yahoo
- YDN Blog | Yahoo Blog - Yahoo
- YDN Blog | Yahoo Blog - Yahoo
- YDN Blog | Yahoo Blog - Yahoo
- likelike - An implementation of locality sensitive hashing with MapReduce - Google Project Hosting
- Hadoop 上での Local Sensitive Hashing の実装らしい。詳細不明。
- klbostee/dumbo · GitHub
- klbostee/dumbo @ GitHub
- Dumboの紹介。
- facebook/scribe · GitHub
- facebook謹製ログ収集ツールScribe。
- Hadoopソースコードリーディング第2回 : ATNDに参戦してきた - ぽりぴぃすらいと
Part1 / Part2