新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した

新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した、というので早速使ってみました。

翻訳対象はHadoopのFair Schedulerに関するドキュメントです。

Fair Schedulerは、Capacity Schedulerと並ぶHadoopの2つのスケジューラの一つですが、挙動が少し複雑で、理解するのに苦労します。ドキュメント自体も長く、英語に不慣れな人には読むのがなかなか大変な文書で、前々から訳したいとは思っていました。しかし、3700ワード(A4に文字ぎっしりで7ページ近く)の技術文書を訳すとなると、かなりの労力が必要になります。少なくとも一日仕事になるのは間違いありません。私も仕事が忙しく、なかなか翻訳の時間がとれなかったため、翻訳作業はタスクキューの底に埋もれてしまっていました。

そこで、今回新しい翻訳がどれほどのものか試すのも兼ねて、翻訳してみました。

その翻訳記事がこちらです。

いかがでしょう?いかにも翻訳文書的で、決してこなれている日本語ではありませんが、ほぼスラスラと読むことができたのではないでしょうか?著名な作家によるウィットに富んだ表現を散りばめた小説ならともかく、OSSプロジェクトの技術文書としては十分な品質ではないかと思います。

この翻訳、たった1時間で完了しました。その作業の大半はコピペと整形作業といった単純作業で、翻訳そのものに費やした時間は半分もありませんでした。一日仕事を想定していたものが、たったの1時間です。もし10時間の作業時間を見積もっていたのだとすれば、作業効率は10倍に上がったことになります。

本記事では、この翻訳作業を通して感じた、新Google翻訳についての私の考えを述べさせていただきます。

Google翻訳は間違いなく破壊的イノベーションである

私が今まで翻訳記事を書いていたときは(例えばこの記事この記事など)、辞書のみを使い、機械翻訳は全く使いませんでした。なぜなら、あまりに読むに耐えない文書が生成されるので、日本語を読む方が大変だったからです。

しかし、新Google翻訳は、スラスラと読める文章を生成してくれます。

「英語を読んで理解する」ことと、「英語を日本語に翻訳する」ことは全く別のスキルで、脳の使い方が異なります。翻訳はかなり頭が疲れる作業です。いくら内容が難解な技術文書とはいえ、一つの文書の中にはシンプルな文も多く、誰が訳しても大して変わらないような文も数多く存在します。新Google翻訳は、単純な文章ならほぼ完璧に自然な日本語に翻訳してくれます。この部分を手間をかけずに自動化できるというのが大きな利点となります。もちろん、うまく訳せない部分もありますが、翻訳者はそういった「うまくない」訳の修正にだけ集中すればよくなります。翻訳作業に頭を使う時間が減りますので、脳の疲れ方が全く異なります。

また、文脈に合った訳語を出してくれるというのも大きいです。

先の翻訳記事から引用した、以下の原文と翻訳例を読んでみてください。

A custom policy can be built by extending org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.SchedulingPolicy. FifoPolicy, FairSharePolicy (default), and DominantResourceFairnessPolicy are built-in and can be readily used.

カスタムポリシーは、org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.SchedulingPolicyを拡張することで構築できます。 FifoPolicy、FairSharePolicy(デフォルト)、DominantResourceFairnessPolicyは組み込みであり、簡単に使用できます。

個人的には、 "custom policy" をきちんとカスタムポリシーと訳しているのに驚きました。

比較対象として、Excite翻訳の翻訳結果を見てみましょう。Excite翻訳は翻訳としての品質はかなり高く、私は旧Google翻訳よりもこちらの方を多用していたくらいです。(上記の通り、そもそも機械翻訳をあまり使ってはいませんでしたが)

カスタムの方針は、org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.SchedulingPolicyを拡張することによって築かれうる。FifoPolicy、FairSharePolicy(デフォルト)、およびDominantResourceFairnessPolicyは内蔵であり、すぐに使われうる。

意味は正しく取れていますし、固有名詞もきちんと識別しています。この文の意味を理解しろと言われても、不可能ではないでしょう。しかし、日本語ネイティブであれば、この訳が日本語として読みづらいことは明らかです。この訳をベースに翻訳作業すれば、結局のところ全文を書き直すことになるのは間違いないでしょう。

一方で新Google翻訳は、「他の人間でもできる作業」を確実にこなしてくれます。ここが大きな違いと思っています。

翻訳の品質という点ではまだ色々言いたい人もたくさんいることでしょう。実際私も、全文ベタ貼りで翻訳完了とすることはできませんでした。しかし、致命的な誤訳だけ直せば、OSSプロジェクトの技術文書として十分な品質の翻訳が、従来の10倍くらいのスピードで完成してしまうというのは、破壊的イノベーションといえると思います。

Google翻訳OSSプロジェクトに適用することの利点

この新Google翻訳は、OSSプロジェクトの貢献活動にすぐにでも活用すべきだと思います。その利点をいくつか述べます。

利点1: 翻訳の手間を省き、技術に集中できる

OSSにおけるコミュニティ活動で翻訳に携わっている人の多くは、別に翻訳そのものをやりたいわけではないはずです。翻訳そのものにかける時間を減らせば、その分技術的な貢献に時間を割くことができます。
技術文書の翻訳は、単に文書を翻訳すればいいというものではなく、その内容が本当に正しいのか、背景となるソースコードや実際の挙動などの調査も含まれるケースが多くなります。こうした作業へ割く時間を増やせるということは、結果として文書の品質の向上につながります。

利点2: 今まで翻訳できなかった文書が翻訳できる

翻訳活動をする人は限られています。その有限のリソースの中で、どの文書を翻訳するかを選定しているはずです。私を含む翻訳活動家の多くは、「翻訳したら有益だろうけど、時間がないし後回しにするか」という風にたくさんの未訳の技術文書を抱え込んでいます。今回私が翻訳したFair Schedulerの記事もその一つです。翻訳にかける時間を短縮できるということは、翻訳のスループットが上がるということであり、それによって今まで手つかずだった文章が訳されるようになるかもしれません。

利点3: 新規にコミュニティ活動始める人達にとっての参加の敷居が下がる

翻訳活動は、OSSの活動に興味を持つ人が最初に着手しやすい活動の一つですが、こうした活動に興味を持っていても、多忙な中で活動できないという人も多くいることでしょう。一度に費やす時間が減るのならば、参加してみたいという人が増えるかもしれません。

Google翻訳により破壊されるもの・されないもの

Google翻訳さえあれば英語力は不要?

どなたか忘れましたが、このようなことをTwitterで書かれていたのを見た記憶があります。今回の翻訳を通してわかったことは、少なくとも現時点では英語力は必須、むしろ以前より英語力が要求されるケースもあると感じました。

Google翻訳は確かに高い品質で訳してはくれますが、それでも誤訳の可能性はあります。当然ながら、英語を理解していなければ誤訳を見つけることができません。以前より自然な文章を生成するようになった分、誤訳の発見にはかなりの英語力と集中力が必要になるでしょう。

英語を学ぶ必要がない世界はまだ先のようです。

Google翻訳さえあれば翻訳書は不要?

これも上記と関連しますが、誤訳を識別する必要性や、原文自体の内容妥当性の検証などを考えると、翻訳家に要求されるスキルはむしろさらに高度になりますし、そうした翻訳家による検証を通して著された訳書は高い価値を生むでしょう。

一方で、ただ訳しただけの文書は不要になる可能性はあると思います。

Google翻訳さえあれば他の翻訳ソフトは不要?

外部に公開できない文書などを新Google翻訳にかけるわけにはいきませんので、即座に不要になることはないと思います。しかし、将来的にどうなるかはわからないです。少なくとも、ライセンス的に問題のない文書については、現時点でも他の翻訳ソフトの必要性を感じないです。

課題

Google翻訳は確かに素晴らしいですが、全てを手放しで喜ぶというわけにもいきません。

ライセンス

現時点では生成された文書そのもののライセンスがない*1ので、この文書をOSSの翻訳プロジェクトにかけたときにどのようになるかは不透明です。
過去の実績から、OSSプロジェクトにおいてオープンソースライセンスの元で執筆された文書の翻訳に活用することに対し、Googleが文句を言うとは思えないと私は判断しましたので活用していますが、この点については自己責任で行うしかないでしょう。
日本の著作権法親告罪のため、私は「Googleから何か言われたら対応します」というスタンスでいきます。
特にGoogleのビジネスを侵害しているとも思えませんし、新Google翻訳を活用してもっと多くの翻訳文書を出すことの公益を考えれば、取っていいリスクと判断しました。
さらに言えば、仮にアメリカの法律に従う場合は、フェアユースに該当すると思われますので問題ないはずです。

Webページ翻訳が未対応

Webページ翻訳が新Google翻訳に未対応のため、現時点では
https://translate.google.com/ に原文をベタ貼りするしかありません。単純に面倒臭いです。

こちらはそのうち解決するとは思います。

まとめ

Google翻訳はかなり自然な日本語で翻訳してくれるので、翻訳の生産性を10倍に高める破壊的イノベーションです。
OSSコミュニティ活動に活用すれば、翻訳者は技術に集中したり、未訳だった記事の翻訳に着手できるようになったり、コミュニティ活動の敷居を下げて参加者を増やせると期待しています。
しかし、新Google翻訳を使っても英語力はむしろ今以上に要求されるケースもありますし、技術検証の必要性などを考えると技術書の翻訳書も当分はなくならないと思います。一方で、他の翻訳ソフトは公開可能な文書の翻訳にはほぼ不要になると思います。
Google翻訳によって生成された文書のライセンスはまだ不透明な部分があるとは思いますが、公益の大きさを考えれば多少のリスクを背負ってでもOSSコミュニティにおいて積極的に活用する価値はあると考えています。

*1:少なくとも私は発見できませんでした。知ってる方いらっしゃったら教えてください