Cloudera Impala がリリースされました

(2012/10/25 15:48 追記)

Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。

Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan

Cloudera から、データサイエンティストのためのリアルタイムクエリエンジン「Impala」がリリースされました。Hive と完全互換のクエリ言語で、Hive より10倍以上速くクエリを処理できます。

概要及びダウンロードはこちらから!

http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/cloudera-enterprise-RTQ.html

@ が素晴らしい概要説明を書いてくれてます!こちらも是非読んでください!

http://linux.wwing.net/WordPress/?p=164

背景

データサイエンティストにとってクエリが何分もかかるのはうれしいことではありません。

頭の回転の速いデータサイエンティストにとって、考えると同時に結果が返ってくるというツールが一番理想のツールです。

しかし、MapReduce ではそのような低レイテンシのデータ処理はできません。

だからリアルタイムに大量のデータ処理を分散処理が可能な、MapReduce 以外のツールが必要になってきました。


Impala とは?

Cloudera Impala はリアルタイムクエリエンジンです。

ユーザはSQLインタフェースを介して数秒でHDFSとHBaseに格納されたデータから計算結果を返すことができます。

Impala はApache HiveのメタデータSQL構文(HiveQL)、ODBCドライバそしてHueユーザインタフェース(Beeswax)を利用します。

Impala は MapReduceではなく独自の処理フレームワークを使用します。

Impala 実行エンジン概要図


クリックすると大きい図になります。


Impala のユースケース、そして Hive との使い分け

Hive でインタラクティブにデータ解析を行いたい人全てにとって有用です。

数十秒かかっていた処理が数秒で終わります。数分かかっていた処理が数十秒で終わります。

Impala は Hadoop 上でのリアルタイムクエリの実行を目的としていますので、データサイエンティストが最も有効に活用するでしょう。

一方で MapReduce を利用する Hive の方がバッチ処理実行やカスタマイズ(UDF等)に優れていますので、ETLのパイプライン開発者にとっては Hive の方が使いやすいといえます。

Impala FAQ

Impala ってオープンソース

もちろんです。

github に既にコードが公開されてます。

https://github.com/cloudera/impala

Apache ライセンスです。

Impala はどこで手に入るの?

Cloudera の web サイトで手に入ります。

概要及びダウンロードはこちらから!

http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/cloudera-enterprise-RTQ.html

今日同時にリリースされる、Cloudera Manager の最新版 4.1 からもインストール可能です。

当然 Free Edition でも対応しています。

Cloudera Manager を使ったインストールガイド

https://ccp.cloudera.com/display/ENT41DOC/Installing+Impala+with+Cloudera+Manager


Impala って CDH に入るの?

ベータ版ですのでまだ入りません。

Impala はどんな言語で書かれているの?

C++ を使っています。

Hive とどう違うの?

クエリの実行部分以外はほぼ一緒です。HiveQL、ODBCドライバ、メタストアDB、Beeswax、全て同じものを使います。

クエリ実行エンジンは、Hive は MapReduce を使いますが、Impala は独自の実行エンジンを使います。