pandas.concatでcsvファイルを読み込み、連結する際に簡易的に整合性チェックを行う

@hurutoriya さんが、先日以下の記事を投稿していました。shunyaueta.comその後ツイッター上でやりとりしているうちにこんな話がありました。ご指摘ありがとうございます!おっしゃるとおりだと思うので、変更しました☺️フィードバックありがたいですhttps://…

Hadoop DistCp実践ガイド2020年版

Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopクラスタ間でデータコピーするためのツールです。保守運用している場合を除き、おそらく2020年においても運用上の選択肢として残っている最後のMapReduceの…

自然言語処理ナイト #dllab

dllab.connpass.comNLPに関するイベントとして目に入ってきたので参加してみました。業界関係者でも自分がきちんと知っている分野でもなく、純粋に勉強目的で一参加者として勉強会に参加したのは久々でしたが、非常に内容の濃いイベントで面白かったです。主…

オープンコレクターに入社して3ヶ月が経った

オープンコレクターに入社してからあっという間に3ヶ月が経ちました。ここでの仕事は、とにかく密度が濃いです。ミーティングは週2-3回ある程度で、余計な割り込みが一切なくひたすら技術に関係することばかりやってます。こんなにミーティングがないのはClo…

在宅勤務で自宅トレーニングを長く続けるための7つのコツ

最近在宅勤務する人が増えてジムが利用禁止になったからか、 AIパーソナルトレーナーアプリのFreeleticsを始める仲間が増えてきました…が、どうも皆さんきついのか長続きしないようです。6割近くの人がコロナ太りしたというニュースもあり、在宅勤務において…

とびきりのハッカーと同じチームで仕事をすることは福利厚生である

先日、社長の moriyoshi と一緒にある案件を行っていました。 リリース直前の前夜、どうしても現在のライブラリでは技術的に不可能な問題が発覚しました。 入社して一ヶ月も経てば、仕事の場でmoriyoshiがどう動くのか大体わかるようになります。「じゃあ作…

TEAM OF TEAMS: 米軍による、最新ITを駆使した21世紀の組織変革戦略

TEAM OF TEAMS (チーム・オブ・チームズ)作者:スタンリー・マクリスタル,タントゥム・コリンズ,デビッド・シルバーマン,クリス・ファッセル発売日: 2016/04/01メディア: 単行本 この本は、イラクとアフガニスタンで米軍の司令官を務めた将軍が記した、複雑で…

高い予測精度を有する専門家の特徴

今年の初め、新型コロナウィルスがこれほど世界的に流行するなど、私は全く想像していませんでした。しかし、このような事態になって、あらためて「超予測力」に書いてあったことが正しかったと実感しています。超予測力―ー不確実な時代の先を読む10カ条 (ハ…

インビクタス「頭に訴えず、心に訴える」

昨年のラグビーワールドカップが盛り上がってた頃に、昔からのラグビーファンだった d1ce_ に勧められたので読みました。インビクタスは映画の方が有名ですが、d1ce_ からは本の方がお勧めということなので本を読んでみました。映画は未視聴です。インビクタ…

株式会社オープンコレクターに転職しました

2020年4月6日付で、株式会社オープンコレクターのシステムアーキテクトとして勤務を開始しました。 https://open-c.jp/この会社は、PythonやGo、React Native などの技術を中心として、認証基盤や決済システム、大規模データ処理アプリケーションやチャット…

ルミノソジャパン合同会社を退職しました

2020年3月24日(火)は、ルミノソジャパン合同会社への最終出社日でした。退職日は2020年4月5日(日)になります。2018年12月3日(月)に入社したので、勤続日数は490日でした。転職時の記事はこちら shiumachi.hatenablog.com この会社での仕事はあまり表に書くこ…

今年こそは自宅で運動を始めたい人のためのFreeleticsガイド(2020年版)

新年明けて、心機一転してまた運動を再開しよう、という人がちらほら周りに増えてきたので、私が使い続けているトレーニングアプリ Freeletics について紹介します。Freeleticsは、ユーザにとって最適なトレーニングプランを提供してくれる、いわゆるAIパー…

プロダクトを作るということについて考える

こちら、pyspa Advent Calendar 2019の23日目の記事です。前日の記事は id:kutakutatriangle さんの34のおっさん(当時)が痔ろう手術するハメになって健康大切だと実感した思い出話(前編)でした。 お前誰? Luminosoという会社でソリューションチームの一員と…

ワードエンベディングベクトルを使った検索アプリを作った話

この記事は、情報検索・検索エンジン Advent Calendar 2019の17日目の記事です。単語ベクトルを使って文書検索をすること、類似する単語をシノニムとした検索、ベクトル計算の応用、ベクトルを使った検索アプリの実際について書いています。

ワードエンベディングモデルしか触らないNLPエンジニアとしての仕事の紹介

この記事は、自然言語処理 Advent Calendar 2019の16日目の記事です。この記事では、私が勤めるLuminosoという会社及びその技術、そこで私がどのような仕事をしているか、ということを紹介します。

超予測力: 未来を予測する技術を学べる本

今年読んだ本の中で一冊を挙げるならば、間違いなく本書、「超予測力 不確実な時代の先を読む10カ条」でした。本書は、非常に予測能力の高い人達はどのように予測をしているのか、ということに注目した本です。本書から、特に汎用性が高く、すぐに使える手法…

Freeleticsで半年間自宅トレーニングしたら食制限なしで6kg痩せた

前回の投稿からさらに四ヶ月弱経ちましたが、未だにFreeleticsを継続できています。shiumachi.hatenablog.com 半年間自宅で運動を続けた結果、なんと体重がピーク時差分で6.2kg、7日移動平均で4.5kg減りました。画像はFitbitの体重の記録です。半年で体重6.2…

AIパーソナルトレーナーFreeleticsを使って、自宅で毎日トレーニングしよう

Freeleticsは、言い訳をさせないことに特化した、硬派なAIパーソナルトレーナーアプリです。とりあえず3ヶ月(15週間)続いたので、紹介してみることにします。Freeletics: トレーニング&フィットネス開発元:Freeletics GmbH無料posted withアプリーチ Freele…

2019年GWに読んだ本

2019年GWに読んだ本の紹介。高次元の統計学、土日でわかるPythonプログラミング教室、サービスデータ解析入門、なるほどデザイン、ペーパープロトタイピング、ALL OUT、北北西に曇と往け

データサイエンスレガシーコード

Repro Tech Meetup #7 にて、「データサイエンスレガシーコードに立ち向かう」というタイトルで講演しました。 データサイエンティスト全てというわけではありませんが、データサイエンスのコードは試行錯誤の連続であり、様々な手法を連続して試すことを考…

健全な危機感と過剰な成功体験の危険性

先日、あるお客様を訪問しました。そのお客様はかなり先進的な企業で、社員の方達の能力も高く、企業の業績も大変良好なのですが、そのお客様はとても印象深い一言をおっしゃっていました。「確かに我々は日本では先進的だと言われているようだが、グローバ…

転職エージェントの活用法

この記事は pyspa Advent Calendar 2018の10日目の記事です。前日は 放送大学と調べ物と私 - rokujyouhitoma's blog でした。私がClouderaを退職し、Luminoso Technologies(日本法人名: ルミノソジャパン合同会社)に転職したことは既に書いた通りですが、こ…

ルミノソジャパン合同会社に転職しました

2018年12月3日付で、Luminoso Technologies Inc. の日本法人である、ルミノソジャパン合同会社のソリューションアーキテクトとして勤務を開始しました。この会社は、自然言語理解のためのMITスピンアウトのスタートアップです。まだ全世界で数十名しかおらず…

Clouderaを退職しました

2018年11月30日(金)は、Cloudera株式会社への最終出社日でした。2011年4月1日に入社したので、勤続日数は2800日でした。 Clouderaオフィス2011年 Cloudera Japan オフィス 2012年 日本にオフィスも同僚もいない状態からのスタートでしたが、今日、多くの同僚…

2018年冬休み: 自然言語処理の本5冊読んだ

自然言語処理の本を5冊ほど読みました。 自然言語処理の基本と技術作者: グラム・ニュービッグ,萩原正人出版社/メーカー: 翔泳社発売日: 2016/03/02メディア: Kindle版この商品を含むブログ (1件) を見る自然言語処理の技術概要から、ユースケースの紹介まで…

人生のスナップショット

この記事は pyspa Advent Calendar 2017の22日目の記事です。前日は 資産運用に取り組み始めた - YAMAGUCHI::weblog でした。pyspa-botは、Mersenne Twisterという、世界的に実績がある、非常に有名なアルゴリズムをエンジンとして動作する人工知能プログラ…

楽天テクノロジーカンファレンス2017でApache Kuduについて発表してきた

楽天テクノロジーカンファレンスに登壇するという貴重な機会をいただいたので、Apache Kuduについて発表してきました。 Apache Kudu - Updatable Analytical Storage #rakutentech from Cloudera Japan 主催していただいた楽天様、ご聴講いただいた皆様、あ…

ブラウザ上で簡単にビッグデータを扱えるOSS: Hue についての簡単な紹介

ドワンゴさんの主催でHue Meetupが開催されることになったので、いい機会だから Hue について、自分の復習がてらまとめておきます。 Hue って何? Hadoopエコシステムを操作するためのWebインタフェースです。 Hadoopエコシステムの多くは、管理Web UIは持っ…

進捗ヤバいプロジェクトに直面した経験がある人なら(多分)楽しめるカードゲーム「Not My Fault!」

エンジニアがプロジェクトがオンスケであると嘘をつき続けるゲームは盛り上がった pic.twitter.com/aWkKIPtAAS— Yoshifumi Yamaguchi (@ymotongpoo) 2017年7月30日 @ryushi さんの主催で仲間内で集まってボードゲーム・カードゲームで盛り上がったのですが、…

「Hadoopの時代は終わった」の意味を正しく理解する

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったと…