(2012/10/25 15:48 追記)
Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。
Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan
Cloudera から、データサイエンティストのためのリアルタイムクエリエンジン「Impala」がリリースされました。Hive と完全互換のクエリ言語で、Hive より10倍以上速くクエリを処理できます。
概要及びダウンロードはこちらから!
@kernel023 が素晴らしい概要説明を書いてくれてます!こちらも是非読んでください!
背景
データサイエンティストにとってクエリが何分もかかるのはうれしいことではありません。
頭の回転の速いデータサイエンティストにとって、考えると同時に結果が返ってくるというツールが一番理想のツールです。
しかし、MapReduce ではそのような低レイテンシのデータ処理はできません。
だからリアルタイムに大量のデータ処理を分散処理が可能な、MapReduce 以外のツールが必要になってきました。
Impala とは?
Cloudera Impala はリアルタイムクエリエンジンです。
ユーザはSQLインタフェースを介して数秒でHDFSとHBaseに格納されたデータから計算結果を返すことができます。
Impala はApache Hiveのメタデータ、SQL構文(HiveQL)、ODBCドライバそしてHueユーザインタフェース(Beeswax)を利用します。
Impala は MapReduceではなく独自の処理フレームワークを使用します。
Impala のユースケース、そして Hive との使い分け
Hive でインタラクティブにデータ解析を行いたい人全てにとって有用です。
数十秒かかっていた処理が数秒で終わります。数分かかっていた処理が数十秒で終わります。
Impala は Hadoop 上でのリアルタイムクエリの実行を目的としていますので、データサイエンティストが最も有効に活用するでしょう。
一方で MapReduce を利用する Hive の方がバッチ処理実行やカスタマイズ(UDF等)に優れていますので、ETLのパイプライン開発者にとっては Hive の方が使いやすいといえます。
リソースガイド
- マニュアル(インストールと利用方法)
- Cloudera Manager を使ったインストールガイド
- ソースコード(github)
Impala FAQ
Impala はどこで手に入るの?
Cloudera の web サイトで手に入ります。
概要及びダウンロードはこちらから!
今日同時にリリースされる、Cloudera Manager の最新版 4.1 からもインストール可能です。
当然 Free Edition でも対応しています。
Cloudera Manager を使ったインストールガイド
https://ccp.cloudera.com/display/ENT41DOC/Installing+Impala+with+Cloudera+Manager
Impala って CDH に入るの?
ベータ版ですのでまだ入りません。
Impala はどんな言語で書かれているの?
C++ を使っています。
Hive とどう違うの?
クエリの実行部分以外はほぼ一緒です。HiveQL、ODBCドライバ、メタストアDB、Beeswax、全て同じものを使います。
クエリ実行エンジンは、Hive は MapReduce を使いますが、Impala は独自の実行エンジンを使います。