2018-12-10

転職エージェントの活用法

この記事は pyspa Advent Calendar 2018の10日目の記事です。前日は
放送大学と調べ物と私 - rokujyouhitoma's blog
でした。

私がClouderaを退職し、Luminoso Technologies(日本法人名: ルミノソジャパン合同会社)に転職したことは既に書いた通りですが、この転職は転職エージェントのヘッドハンター経由で行ったものでした。

外資系IT企業のヘッドハンターと言えば、スパムのようにメールを送ってきたり、名前を間違えたり、職場にいきなり電話してきたりと悪評は留まるところを知りませんが、今回利用させていただいた中で活用のメリットというのが見えてきたので、私のエピソードとともに共有します。

ヘッドハンターを活用した転職エピソード

ClouderaがIPOした後、会社としては一区切りもついたことだし、現状に不満は特になかったものの、その先のことも考えなければと思い、面白そうな仕事や技術のトレンドなどをゆっくりと探していました。そんな中、あるヘッドハンターからのメールが目に止まりました。

大半のヘッドハンターが大企業の案件を紹介してくる中、そのヘッドハンターだけは見たことも聞いたこともない企業名を挙げてきました。しかも、北米のスタートアップと書いています。興味が湧いたので、会ってみることにしました。

そのスタートアップ自体は話を聞く限りあまり興味の引かれる案件ではなかったものの、そのヘッドハンターは、海外のスタートアップの案件を持っているそうなので、ものは試しにと思い、好き勝手な条件をつけて、この条件を満たした企業があったら話を持ってきてください、とお願いしました。
主な条件は以下の通りです。

自然言語処理に関係があること
botに関係があること
立ち上げ、あるいはそれに準ずるフェーズであること
勤務地は東京であること

もともとpyspaの中で俳句botというものを作っていた関係もあり、自然言語処理とbotの世界にはとても興味を持っていました。しかし、自分の知る限りではこの二つを結びつけてビジネスを成功させている企業は一社もなく、とても仕事になるとは思っていませんでしたが、せっかくなので自分のやりたいことを現実性度外視でぶつけてみることにしました。上記以外にも給与等の様々な条件をつけましたが、正直そのヘッドハンターがその条件に合致した案件を持ってくることはあまり期待しておらず、当たればラッキーくらいの軽い気持ちで条件を提示していました。

それから一年後、そんな話をすっかり忘れていた私の元に、一通のメールが届きました。読むと、その会社は自然言語処理に関係があり、botに関係があり、日本での立ち上げメンバーを探している、ということでした。私が提示した条件にほぼ合致していた案件を、そのヘッドハンターは持ってきたのです。

私もこちらが出した条件を満たした案件を持ってきてもらった以上、会わないのでは義理が立たないので、とりあえず会ってみることにしました。

以上が、私が Luminoso と出会った経緯となります。

(余談になりますが、Luminosoはあくまでデータソースの一つとしてchatbotを扱えるというだけで、別にbotの会社ではありませんでした)

ヘッドハンターの活用についての教訓

今回わかったこととしては、未知の業界や未知の分野、未知の職種・職位など、自分が行ってみたいもののツテも何もない、という場合にヘッドハンターを活用することには大きな意味があるということです。ヘッドハンターなしには、私はLuminosoという会社を知ることすらなかったでしょう。
一方、もし既存の技術や職種の延長上での仕事を探したり、よく知った人物と一緒に仕事したいなど、既知の領域での転職を考えているのであれば、ヘッドハンターの活用はあまり有効ではないでしょう。そもそも、全く知らない会社に転職するというのは大きなリスクを伴うものです。私のように、よほど未知の世界に興味がない限りは特に使う必要もないと思います。
また、今すぐにでも転職したい・しなければならない場合などは、一見ヘッドハンター経由だとすぐに仕事見つかりそうな気もしますが、上記の通り全く知人のいない会社への転職はリスクがある上に、転職への焦りからつまらない仕事を選んでしまう可能性もあるため、私としてはあまりおすすめはしません。余裕のあるときに会っておくのが一番いいと思います。

ヘッドハンターの活用法

これはすごく簡単で、以下の3つを実施するだけです。

会って話する
自分の要望を好き勝手に告げておく
放置する

先述の通り、なるべく余裕のあるときに実施しておいた方がいいです。本当にいい案件が来たときだけ話を聞けばよく、そうでなければ普通に現職の業務を続ければいいからです。
要望については、「5000兆円ほしい」でもなんでもいいので、とにかく好き勝手言っといて問題ないです。条件に合致しなければ放置されるだけだし、デメリットは一切ありません。

おまけ: ヘッドハンターとスパムメール

「ヘッドハンターからのメールってテンプレで大量に投げたり、たまに名前間違えて投げてきたりするじゃないですか？あれほとんどの人がスパムフラグ立てて読んでもいないから、もうちょっと丁寧に投げた方がいいと思いますよ」

という話をしたらとても驚いていて、そんな風に扱われているとは知らなかったとショックを受けていました。普段からたくさんの案件を同時並行でやる傍ら大量のメールを送っていて、自分でもそうした問題に悩んでいたのですが、さすがにスパム扱いは衝撃だったようです。

今回の転職活動の中でヘッドハンターの仕事というのも知ることができたし、何より担当したヘッドハンターは素晴らしく協力的で大変助かったという恩もあるので、今後はスパム扱いするのは少し控えようと思いました。

……が。

転職発表してから数時間経たないうちに、もし転職考えてるんだったら話さない？って送ってくるヘッドハンター様各位: 少しくらいプロフィール読んでください
— Sho Shimauchi (@shiumachi) 2018年12月4日

全てのヘッドハンターのメールからスパムフラグを外すのはまだ当分先の話になりそうです。

pyspa Advent Calendar 2018、明日は taichi です。

2018-12-03

ルミノソジャパン合同会社に転職しました

2018年12月3日付で、Luminoso Technologies Inc. の日本法人である、ルミノソジャパン合同会社のソリューションアーキテクトとして勤務を開始しました。

この会社は、自然言語理解のためのMITスピンアウトのスタートアップです。まだ全世界で数十名しかおらず、日本では私と代表の2名のみの会社です。

Luminosoを使うことで、お客様のお問い合わせ記録のテキストからお客様の声を抽出したり、口コミなどの解析から迅速な製品の改善に繋げることが可能になります。

これだけ聞くとあまり目新しくないように見えますが、Luminosoの特長としては、こうした結果を、辞書も不要で、かつ少量のデータだけで実現できるということです。NLPの本番導入の大きな壁の一つであった、辞書管理やデータ管理をスキップすることで、導入コストと時間を大幅に削減することができます。

詳細については以下のページをご覧ください。

プレスリリース: https://www.atpress.ne.jp/news/159774
日本語webサイト: https://www.luminoso.jp/

では、なぜこの会社に入社することに決めたのかを説明します。

もう一度ゼロからスタートする

7年半前に入社したClouderaも、入社当初は70人ほどの会社で、日本はまだオフィスすらない状況でした。それから大きくなっていくに従い、会社の規模だけでなく製品の機能や、会社としてできることの数が大きく増えていきました。それはそれで楽しいことでしたが、同時に「このまま成功の波に乗り続けるだけでいいのか」とも考えていました。自分はたまたま運がよかっただけでであり、その幸運の上にあぐらをかいていていいのか、と考えました。そこで、リセットしてもう一度最初から始めてみることにしました。

会社の規模が小さいというだけではありません。自分がNEC時代から含めて8年半以上学んできたHadoopエコシステムの知識や経験も置いてきました。Luminosoでは一切Hadoopは用いていません。その代わりに、これからは自然言語処理の技術を学んでいくことになります。

もともと自然言語処理に興味があり、既に何冊かの本を読んで学んだとはいえ、この分野ではまだ素人同然です。Cloudera時代のように専門家気取りでえらそうなことを話せば、真の専門家達から袋叩きにされることでしょう。初心にかえって、一から勉強し直します。

また、技術だけでなく、自分の築き上げた人脈も置いていきます。通常、外資系の転職の場合、会社が変わっても人間関係を全部変えることは非常に稀で、一般的な日本企業よりも長期にわたって「仲間うち」で仕事する人も多いです。こうした人のつながりも置いてきました。Luminosoには、少なくともLinkedInで調べた限り、元Clouderaの人間は一人もいません。全員が初対面です。

このように、会社規模、技術と経験、人間関係、全てをゼロに戻して最初からスタートすることにしたのが今回の転職です。

データ基盤からデータ活用サイドへ

データ基盤は十分に普及したものの、データの活用方法について悩んでいるというお客様を前職では数多くみてきました。そこで、次はデータを活用する側にとって役立つようなことがしたいと常々考えていました。Luminosoは、データ基盤ではなく、データを活用する側の技術ですので、私のやりたい方向性と合致していました。

オープンソースからオープンデータへ

Luminosoは、もう一つ大きな特徴があります。ConceptNet というオープンデータをメンテナンスし、これをコアコンポーネントとしていることです。

http://conceptnet.io/

10年以上オープンソースで仕事をしてきて、オープンソースビジネスというものの将来性については十分に理解をしていたものの、オープンデータを核として成功した企業というのは聞いたことがありませんでした。これが、私がLuminosoに興味を抱いたもうひとつの理由です。

未来は誰にもわからない

この会社が成功するかどうか、私にはわかりません。入社して早々に買収されるかもしれないし、突然大企業が競合製品を発表して息の根を止めにかかってくるかもしれません。私自身ももしかしたら半年後にクビになるかもしれません。でも、だからこそ挑戦してみたいと思いました。一年後どうなっているか予想できる仕事より、一年後どうなっているのか全くわからない方が、自分には合っています。

まずは第一日目が終わりました。これから自分がどうなっていくのか、本当に楽しみです！

2018-11-30

Clouderaを退職しました

2018年11月30日(金)は、Cloudera株式会社への最終出社日でした。2011年4月1日に入社したので、勤続日数は2800日でした。

f:id:shiumachi:20181130102447j:plain — Clouderaオフィス2011年

f:id:shiumachi:20181130102256j:plain — Cloudera Japan オフィス 2012年

日本にオフィスも同僚もいない状態からのスタートでしたが、今日、多くの同僚たちに見送られる形で会社を出ることができました。

退職するときは、最後の一人として会社を去るか、自分がいなくても会社が回るようになったときか、そのどちらかにしよう、と決めていました。皆が退職することを惜しんでくれましたが、私がいなくても会社は問題なく続いていくでしょう。私が理想とする結末にたどり着くことができて、本当に嬉しいです。

7年前、ごく一部の人しか知らなかったHadoopは、今や多くの人が知るソフトとなり、Hadoopに限らず、様々なデータ基盤を活用することが当たり前の時代となりました。

この先もきっと、データ基盤の業界は伸びていくことでしょう。そしてClouderaもその中心を担う存在であり続けると信じています。

Clouderaは最高の会社です。この会社で働くことができて、本当に幸せでした。最高のチームとも出会えました。皆と一緒に仕事できなくなるのは本当に寂しいですが、自分の行く道を信じて、新しい旅に出ることにします。

週明けからはまた新たな仕事が始まります。どのような仕事をするのかは次の記事で書くことにしましょう。

f:id:shiumachi:20181115210634j:plain — Cloudera Japan オフィス入り口 2018年

2018-01-08

2018年冬休み: 自然言語処理の本5冊読んだ

自然言語処理の本を5冊ほど読みました。

自然言語処理の基本と技術

作者: グラム・ニュービッグ,萩原正人
出版社/メーカー: 翔泳社
発売日: 2016/03/02
メディア: Kindle版
この商品を含むブログ (1件) を見る

自然言語処理の技術概要から、ユースケースの紹介まで、この分野における基本的な内容をざっと押さえることができました。
数式や技術的に難解な話はなく、さっと読める本でした。
最初のとっかかりとしてとてもいい本です。
非技術者や、少しだけこの分野をかじっておきたい別分野の技術者ならこれ一冊読めば十分かと思います。

自然言語処理 (放送大学教材)

作者: 黒橋禎夫
出版社/メーカー: 放送大学教育振興会
発売日: 2015/03/01
メディア: 単行本
この商品を含むブログ (1件) を見る

こちらも入門レベルの本ですが、「自然言語処理の基本と技術」とは異なり、もう少し技術寄りに特化した内容です。
その代わり、扱う技術分野が幅広く、文字コードや言語学分野の話も出てきて、どういう知識が必要なのかを理解するのに役立ちました。
この分野の基本的な知識インデックスを頭に入れたければ上記の本と合わせてこの本まで読めば十分だと思います。

言語処理のための機械学習入門 (自然言語処理シリーズ)

作者: 高村大也,奥村学
出版社/メーカー: コロナ社
発売日: 2010/07/01
メディア: 単行本
購入: 13人クリック: 235回
この商品を含むブログ (42件) を見る

数式も出てきて、実際に手を動かして学ぶ必要のある本です。先の2冊が概要の把握レベルの本であれば、こちらは技術書としての入門書になります。
この本の演習問題では「〜を作れ」といった記述しかなく、おそらく机上レベルでの作成を意図しているのでしょうが、今は scikit-learn という便利なツールがあるため、実際に手を動かしてモデルを作って試しながら読んでました。

入門自然言語処理

作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
出版社/メーカー: オライリージャパン
発売日: 2010/11/11
メディア: 大型本
購入: 20人クリック: 639回
この商品を含むブログ (44件) を見る

NLTKは既に古いと chezou さんにアドバイスを受けたし、内容も前半部分はPythonの基礎の話や文字列処理やトークナイズの話(つまり、既に自分が理解済みの内容)だし、後半の話も他の書籍で読める内容の上、付録以外は英語ベースの話のため、私の今の興味から外れている内容でした。
ざっと目を通した程度です。
英語の解析をする必要が出てきたら読むかもしれません。

文脈解析- 述語項構造・照応・談話構造の解析 - (自然言語処理シリーズ)

作者: 笹野遼平,飯田龍,奥村学
出版社/メーカー: コロナ社
発売日: 2017/05/25
メディア: 単行本
この商品を含むブログを見る

サブタイトルの通り、述語項構造、照応、談話構造の解析に特化した内容です。ほぼ読み物で、演習問題等もなく、これ一冊で何かできるというような内容ではないです。

2017-12-22

人生のスナップショット

この記事は pyspa Advent Calendar 2017の22日目の記事です。前日は
資産運用に取り組み始めた - YAMAGUCHI::weblog
でした。

pyspa-botは、Mersenne Twisterという、世界的に実績がある、非常に有名なアルゴリズムをエンジンとして動作する人工知能プログラムです。

語録コマンドを実行すると、過去に登録されたその人の発言を、botエンジンがランダムに1つピックアップして返してきます。
~~要するにただのrandomコマンドです。~~

語録の登録における不文律として、「自分以外の人が登録する」というものがあります。絶対ではありませんし、自分で登録するケースもゼロではありませんが、非常に少ないです。
これが何を意味するかというと、語録には常に、「その当人以外の周りの人にとって心に残ったその人の言葉が登録される」のです。
実際語録を開いてみると、その人の声や顔が鮮明に思い浮かべられるくらい、まさにその人という語録ばかりが並んでいます。
その言葉が、その人の生きている姿を鮮明に映し出すのです。

botは、人生のスナップショットなのです。

pyspa Advent Calendar 参加者 + bot作者の moriyoshi の語録から一つピックアップして紹介しましょう。
公開しても問題なさそうなものだけピックアップしていますので、実際にはもっと個人的なネタやNSFWなネタもあります。
語録が存在しない、あるいは上記のような語録しか存在せず公開できない人は載せていません。

moriyoshi

ケツの穴にバリカン突っ込んで複雑な痔にしてやりたい

wozozo

なんか屁がめっちゃくさい...

tokibito

笑ってられるうちはデスマじゃないと思う

torufurukawa

最もイタリア人っぽい男は・・・俺かな

akisute

どうも四時からワイドの男あきすてです

flag_boy

pyspaには真理しかないよ

voluntas

wozozo が焼き肉をおごる会まだー

aodag

デスマかも？なんて思ってるときはデスマじゃないのさ

tokoroten

共有フォルダ+Excelで管理しようとしたPMは更迭した。

mururu

ぼくをツモりましょう

taichi

俺なんて3DS何台買ったと思ってんだ。4台だぞ。

kuenishi

おいしまうち、これ買ってこい

isoparametric

にしおかどうかは主観だから、俺がそう思うんならお前はにしおなんだろう、俺の中ではな

drillbits

みんなちがってみんなジャバ

turky

以前、一番嫌な死因について考えた結果、じわじわと圧死が一番嫌という結論になりました。

nikuyoshi

危ない橋は渡ったことないので…

cocoatomo

今日, ふと思ったんだけど, 俺無職になったらそのままダラダラ無職続けてしまいそう

mopemope

卒業とか勝手なこと言ってるけど、もうみんなとっくに卒業してんだよ！！気づけ！マヌケ！

takabow

今日も新橋です

ymotongpoo

素直に「ションベン漏らした！！」っていえよ！！！！

shibu_jp

マイ・リトル・ポニーを見ている方がよっぽど有意義というものだ。

chezou

残念ながらソフトクリーム食べながらR書いてます

hiroki.niinuma.5

肩がこった？いいのかい？俺が本気で揉んじまって

shiumachi

最後に、私の語録からも一つ紹介しましょう。

botは人工知能じゃない！神なんだよ！

明日は shibu_jp です。

2017-10-28

楽天テクノロジーカンファレンス2017でApache Kuduについて発表してきた

楽天テクノロジーカンファレンスに登壇するという貴重な機会をいただいたので、Apache Kuduについて発表してきました。

Apache Kudu - Updatable Analytical Storage #rakutentech from Cloudera Japan

主催していただいた楽天様、ご聴講いただいた皆様、ありがとうございました。

社外での英語プレゼンだったのでなかなか準備が大変でした。

以下、補足やFAQです。

これ資料英語なんだけど日本語はないの？

この資料そのものの日本語スライドはありませんが、より詳しいスライドが日本語で公開されています。

Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017 from Cloudera Japan

#cwt2016 Apache Kudu 構成とテーブル設計 from Cloudera Japan

「新製品 Kudu 及び RecordServiceの概要」 #cwt2015 from Cloudera Japan

資料読むのだるいからKuduについて3行でまとめて

Kuduは、HDFS みたいなシーケンシャルリードの性能と、低レイテンシでのランダムアクセスや更新・挿入が得意なHBaseのようなNoSQLの長所を合わせ持った、新しいOSSのストレージエンジンだよ！
Kuduを使うと、ラムダアーキテクチャのようなバッチ処理 + ストリーミング処理や、分析クエリ + 更新処理みたいな、今まで複数のコンポーネントを組み合わせないと作れなかったようなシステムがこれ一つでできるよ！
Kuduの使い道の代表例としては、IoTなどにおけるセンサーデータのリアルタイム分析や、金融ティックデータ分析などのリアルタイムダッシュボード、UPDATE/INSERT文を含む既存DWHからのオフロード・マイグレーションなどがあるよ！(参考)

KuduあればHDFSやHBaseいらなくない？

Kuduはどちらの特徴も備えていますが、性能的にはどちらについても若干劣ります。よって、HDFSやHBaseだけで足りる用途であればそちらを使った方がいいです。

また、Kuduは型を必ず持つので、型を考えずにとりあえず突っ込んでおきたいという場合には適しません。

HDFSやAmazon S3、Azure Data Lake Store のような中央ストレージを持ちつつ、補完のためにKuduを活用していくといいでしょう。

Kuduの性能評価結果を教えて

日本語スライドとしては2015年のスライドのこのページに一応載っていますがちょっと情報古いです。

2017年2月に公開されたCERNによる性能評価が一番新しいと思います。

まとめ

Kuduはリリースされてから2年ほど経って、かなり色々こなれてきた感じがしています。
便利なのでガンガン使っていきましょう！

Kuduについて日本語でもセッション聞きたいという人は、11/7(火)に開催されるCloudera World Tokyo 2017に来てください。私とは別の切り口でのKuduのセッションがあります。

2017-09-19

ブラウザ上で簡単にビッグデータを扱えるOSS: Hue についての簡単な紹介

ドワンゴさんの主催でHue Meetupが開催されることになったので、いい機会だから Hue について、自分の復習がてらまとめておきます。

Hue って何？

Hadoopエコシステムを操作するためのWebインタフェースです。
Hadoopエコシステムの多くは、管理Web UIは持っていても、ユーザ用のWeb UIはありません。
ユーザがターミナルからコマンドを叩かなくてもHadoopエコシステムを操作できるようにするのが目的です。
主に、以下のようなことができます。

ファイルをアップロードしたり、編集したり、ダウンロードしたりできる
SQLを書いて実行したり、SQLを共有できる
DBのテーブルを管理できる
ジョブ実行のワークフローを作って実行したり、スケジュール実行できる
検索エンジン用のダッシュボードを作成できる

Hueは Apache License のオープンソースです。
詳しくは以下のサイトを見ましょう。

公式サイト (日本語化されてます！)
公式github

Hue は誰が使っているの？

Hueは、全ての主要なHadoop ディストリビューションに含まれているので、Hadoop触っている人は意識せずとも使ったことある人も多いと思います。

あと、Amazon Athena の UI は間違いなく Hue です。

先日、あるお客様のところに製品紹介にいったときにHueを見せたら、「Athenaみたいですね」と言われました。逆ですから！

EMR Hue の話は、Hue Meetup でミクシィの岩瀬さんが話をしてくれます。

ドワンゴさんはヘビーなHueユーザで、主催者の木浦さんがそのあたりの話をしてくれるはずです。

Hue って何で作られてるの？

Hueは、以下のコンポーネントで作られています。

コア部分: Django (Python製Webフレームワーク)
フロントエンド

Hue Meetupでは、@tokibito ことオープンコレクターの岡野さんが、Django開発者という観点からみたHueを説明をしてくれる予定です。

Hueで何ができるの？

色々できます。

ファイルブラウザ

ファイルをアップロードしたり、編集したり、ダウンロードしたりすることができます。

f:id:shiumachi:20170919123511p:plain

f:id:shiumachi:20170919123521p:plain

テーブルブラウザ

HiveやImpalaなどのSQLエンジンが扱うテーブルを閲覧することができます。

f:id:shiumachi:20170919123535p:plain

SQLエディタ

HiveやImpalaなどのSQLをブラウザ上から実行することができます。
簡単な可視化もできます。

f:id:shiumachi:20170919123612p:plain

Pigエディタ

一部で根強い人気の残るPigも実行できます。

検索ダッシュボード

Solrと連携して検索ダッシュボードを作成することができます。

f:id:shiumachi:20170919123653p:plain

(Hue 公式サイトより引用)

ワークフローエンジン

ブラウザ上からワークフローをGUIで作成・管理することができます。

f:id:shiumachi:20170919123711p:plain

(Hue 公式サイトより引用)

まとめ

Hue を使うと、ビッグデータ基盤のWeb UIを簡単に用意することができます。
まだ使ったことない人も、使っているけどもっと色々使いこなしてみたい人も、自分の使い方を共有したい人も、Hue Meetupに参加してみてください。