随筆:「パターンとカテゴリーシステム」

by ご近所のきよきよ


 
 もう10年も前になります。スランプで捨て鉢になって、とある学会を脱会したのですが、翌週本屋さんで、ふと思い至ったのです。「分類」ってパターン認識の本質ではないかと。
 「分類」とは、視点によって分類先のカテゴリーは変わってくるだろうというアイデアです。分類されると記号(コンセプトとしてはそれ以上分断できないアトム)として、曖昧性の無い処理ができるようになります。分類する段階で、曖昧性を「視点」によって解決していくのです。「視点」によって曖昧性はなくせるということです。
 
 当時は漠然と理論を作ろうと努力していましたが、どうしてもしっくりいかない。ものを作って試さねばと焦るのですが、そんな時間はついに作れませんでした。JavaとかVB、Windowsプログラミングを少し囓った程度で5年の時間が過ぎてしまいました。出だし時は、他になにかやる事があるときついですね。軌道に乗れば、セカンドライフとして本業と平行して作業できるようになるのですが。とっかかりの所は雑音は禁物です。完全自由でないととてもものにならない。
 この5年、プログラムを作りまくっていましたが、「分類」を真正面から扱うことなくものはできていきました。「分類」のことは暫く忘れていたといってよいでしょう。ですが、未夢ができて、夏樹がデバックフェーズになると、なにかこのままでは自然言語システムとして、人工知能として完成しないのではないかという欠落感を感じるようになりました。そう、「分類」を真正面から攻略すべきでないかと思うに至りました。
 
 夏樹はコーパスを整理するプログラムです。次のような処理をします。
(1)未定義語洗い出し(名詞、動詞、形容詞、形容動詞を判別)
(2)格フレームの収集
(3)深層格を推定して抽象格フレーム(未夢で使う形式)生成(モデルパターンとのマッチングで深層格を推定する)
(4)has/is関係の抽出と素材集合の生成(特定の構文とマッチングさせて、has/is関係を推定する)
 
 前に議論した事がある、カテゴリーシステムは全く使わずに、モデルパターンを設定して、それとのマッチングですべて推測していってます。「意味」をいっさい使わないということで、今の夏樹は結構面白いシステムだと自賛しています。このパターンマッチングを追求していくと、意味も有る程度推測していけそうな気がします。学習の初期ではなくて、モデルが沢山できた円熟期にはパターンマッチングだけで、かなりの意味推定ができるのではないでしょうか。
 夏休みにNHKの「とことん!押井守」を熱心に観ていたのですが、「甲殻機動隊」の中の「ゴースト」の意味が大体分かりました。「ゴースト」という単語のあんな使い方は始めてだったのですが、言葉の前後関係から「意識体」というような意味だとなんなく推定できたのです。実際「ゴースト」という単語もそんな意味を要素にもっているなと後から合点して、推測は確信になりました。
 そんなわけで、夏樹はこれからも深く追求していくべきテーマなのです。
 
 カテゴリーシステムの基盤はプリミティブ(クオリアオントロジー)とプロトコルですね。プロトコルとは、他人が指さしたものの意味を以心伝心で把握することとか、閉曲線の中をオブジェクト、外側を空間と判断するとか、認知機構で決められた規則です。それらを関連づけるパスのネットワークで知識ができていると思うのです。色とか、味覚、相貌認識とかを見ますと、プリミティブの混交で処理がなされていますから、人間の認識過程ってみんなそんなだろうなと思うわけです。

 「山」という意味は、音声とか、図形、体感、記号システムに支えられているわけです。脳でいうと様々な異なる領野と連想関係を持っているということです。それぞれの領野の神経細胞同士が直接ニューロン結合はできないわけで、大動脈ニューロンで介されるでしょう。神経細胞同士の連想はだから、「視点」コードというか、カテゴリーコードによって、音声なら音声の特定パターンを指定できる事によっておこなう・・・と思うのです。領野内は自由にニューロン結合ができるとか。パターン指定は神経のコラム構造で実現する。こう考えるのが素直かなと思えます。
 「視点」の基盤はピリミティブとかプロトコルになって、その結合がカテゴリーとなり、さらに上級のカテゴリーの基盤になるのではないかと考えるわけです。
 
 大体が、2つのカテゴリーがある視点で、相同であるとは、共通の内部カテゴリーを両者が持っていて、その共通点をもって、「視点」となすということでしょう。相反であることは、ある排他な内部カテゴリーがあって、それを「視点」となすということでしょう。
 そんな知識体系としては、記号システムであって、記号が相互に2項関係を持つという形式で表現させるでしょう(オントロジーみたいに)。関係もまた記号であるとします。そんな、2項関係のネットワークが知識であると言えます。つまりニューロンによって、全ての知識が表現でき、利用でき、学習できるということが言えてきます。
 
 知識は膨大で、組み合わせ的処理であるため、計算量も巨大になるでしょう。分散処理、並行処理(メニーコアマシン)、バックグランドでの常時駆動が必須のシステム用件になるでしょう。
 
 
 

おわり