読者です 読者をやめる 読者になる 読者になる

認識とパタン

認識とパタン (1978年) (岩波新書)

認識とパタン (1978年) (岩波新書)

非常な幸運に恵まれて手に入れることができた本です。

「認識とパタン」は、こちらのブログ(その1)(その2)で初めてその名前を知りました。面白そうだと思ってAmazonを調べたら絶版で、なんかプレミアついて最大10000円とか値がつけられてます。(30年以上前の岩波新書で定価430円なのに……)
それから数日後、外出した際に古本屋を見て回ることにしました。
とはいえそうそう見つかるものではなく、数件回った程度では手に入りません。
まあ気長に探すか、と思い帰宅したところ、たまたま「なんかラーメン食べたくなったな」と思いつきました。そしてこれまた偶然「たまには普段使わない店いってみようかな」と、自分の生活圏から少し外れた場所のラーメン屋に行くことにしました。
その途中に一件の古本屋がありまして、店頭に新書が並んでいます。対して期待もせず本棚を検索しますがやはりない。特に落胆するでもなくそのまま店を後にし、ラーメン屋で麺を啜ることにしました。
腹も膨れ、家路につくと、先程の古本屋が見えてきました。ここで、行きは店の影に隠れて見えなかった本棚を一つ発見しました。しかも全て新書の棚。
この偶然の発見に既に驚いたのですが、その本棚にあったのです、「認識とパタン」が。それもたったの100円で。
私はこの偶然に狂喜乱舞しました。まさか探し始めたその日に手に入るとは夢にも思っていませんでした。*1
そして喜び勇んで家に持ち帰り、中を読んでみました。

本題


この本は、タイトル通り「パタン認識」に関する本です。といっても、技術的なディテールには踏み込んでおらず*2、主として「パタン認識」とは何かということについて考察している本です。
まず筆者は、「パタン」を『「これは何か」という問に対する答』と説明しています。その上で「パタン認識」を、『個物のパタンを言いあてるということ』と説きます。ここでいう個物とは、データの集合のことです。筆者はパタンのことを主として類という言葉を用いて説明し、データと類がパタン認識の二つの柱としています。全5章からなるこの本では、第1章でパタン認識、第2章でデータ、そして第3章で類について考察しています。この記事では、この本の主となるこの3章に焦点を当てて説明します。
コンピュータを用いてのパタン認識を行う際、二つの異なる作業が発生します。一つは「人間が」新しく類を創造すること。もう一つは類をコンピュータに教えることです。重要なのは、コンピュータが類を創造しているわけではないということです。このことは後述する「みにくいアヒルの子の定理」により無意味であると証明されています。(不可能ではないことにご注意ください)
筆者は、パタン認識を「情報の圧縮である」と説明します。
我々の生きる世界には無限の情報があふれています。我々は生きているだけで無限の情報を取り込み続けてるわけです。「インターネット時代になって情報の洪水が」などと語るまでもなく、既に情報の海に放り出されていたわけです。この本で挙げられた例として、視覚があります。なぜ人間は可視光線しか見ることができないのでしょう? それは人間が生活に必要な波長域だけを認識するようにし、生きるのに不要な情報をカットしているからです。もし全波長の波を見分けることができたら、きっと光の洪水に飲まれておかしくなるでしょう(一度くらい体験してみたい気もしますが)。
このように、データの収集の時点ですでに情報の圧縮を行っているのです。つまり、データ収集そのものがパタン認識である、というのが第2章の主題です。大量のデータを少量の類にクラスタリングし、その類をデータとみなしてまたクラスタリングする……ということを繰り返しているわけです。では、その「類」とは何なのでしょう? その疑問に答えるのが第3章です。
類とは、何かの特徴でまとめられたデータの集合と筆者は語ります。「赤いもの」「四角いもの」「重さが1kg以上のもの」全てが類です。先ほどの視覚におけるデータ収集は「光波のうち波長が400-730nmのものをデータみなす。それ以外のものは破棄する」と言い換えることもできます。では、この類とはどこから出てくるのでしょう?
筆者は、「みにくいアヒルの子の定理」というものを用いて、類などというものが自然界に存在しないということを証明しました。詳細は自作の解説スライドを参照してください。要約すると、「比較する特徴が全て対等であるとみなしたとき、あらゆる二物の類似性は等しい」という定理です。これはすなわち、純粋な論理学の観点ではクラスタリングというものが不可能であるということを意味します。よって、人間の主観なしに類というものは創造できないのです。
例えば、ここに「水」と「iPad」があるとします。この2つは、「赤くない」「丸くない」「重さがある」「日本で買うことができる」などの特徴において「同じもの」です。先ほどの定理において、この2つは「ガンダムの模型」や「紙粘土」と比較しても全く違いがありません。しかし、「おかしいだろそんなの」と直感的に思うことでしょう。当然です。ではあなたは、何でおかしいと思ったのでしょうか?
別の質問をしましょう。あなたは今どちらが欲しいですか? 少なくとも私だったら、当然「iPad」を選びます。遊べそうだからとか、面白そうなど、色々と理由をつけることはできます。しかし今ここに、喉がカラカラで今にも死にそうな人がいたとしましょう。その人は水を選ぶのではないでしょうか?
このように、人は無意識に特徴に重みづけをしているのです。これが類の創造であり、クラスタリングです。
ただの「パタン認識」はコンピュータでもできるかもしれません。しかし、「このiPadは水ではないですね」なんて答えを返すコンピュータを誰が欲しがるでしょうか? 人間にとって意味のあるパタン認識は、人間の主観によってしか創造することができない、というのがこの第3章の主題です。
全体まとめると、パタン認識とはデータを類に当てはめていく活動であり、意味のあるパタン認識とは人間が類を創造し、情報を圧縮していくことである、となります。決して「類を見つけ出す」活動でも「コンピュータに類を創造させる」活動でもないのです。


この一ヶ月間、データマイニングの世界にどっぷりと浸かって勉強していましたが(その話はまた別の機会に)、技術書では分類の手法などは書かれていてもこうした基本的な概念については一切省略されていて、非常に悩んでいました。本の中ではあたかもその分類が当然のように書いてあるのですが、なぜその分類が正しいのか分からず苦労していました。この本を読んで、そうした迷いが少し晴れた気がします。結局のところ、データマイニングを行うに当たって必要なのは「センス」であるということがわかったのは、私にとって大きな収穫でした。
本の最後に、筆者も同じようなことを述べています。

パタン認識も自然科学も芸術と同じように独創的な創造が重要な役割を演じます。
(p.179)

真面目にデータマイニングを行おうと思ったら、技術だけでなくこうしたセンスも日々磨いていかないといけませんね。

それにしても、なぜこのような素晴らしい本が絶版なのでしょう。今も売っているのであれば、面白いので是非読んでほしい、と紹介できるのですが……。

*1:そりゃそうだ、まだ一度も寝ていなかったのだから

*2:実際には1章割いて技術的な話も書いてはいるが、さすがに内容が古い