随筆:「未夢の主な曖昧性」

by ご近所のきよきよ


 
 人工知能の実現は曖昧性との戦いであります。いかに曖昧性を組み伏せるか・・・、これが技術の全てかもしれません。メモリを沢山使って、超並列にして(メニーコアマシン利用とか)、なんてのも基本中の基本な、正攻法な戦略でしょう。リーズナブルな規模のマシンで曖昧性をどう解決していくか、というのも胸躍る挑戦的な問題でもあります。ちょっとしたゲームを解くような緊張感が味わえます。


 話は飛びますが、チューリングマシンと計算機は同じ能力を持っている事は証明されているとか。そして、チューリングマシンとラムダ式とは等価であると、「情報処理ハンドブック (情報処理学会編 オーム社)」が語っています。また、ラムダ式を言語として実現したのが、関数型言語であるとか。とするならば、完全な関数型言語があってしかるべきなのに、殆どは純粋さがなく、手続きを記述するようになっているということです。「日経ソフトウェア2007.07」で関数言語に触れて、「入門Haskell(向井淳著 毎日コミュニケーションズ)」と「入門OCaml(OCaml-Nagoya著 毎日コミュニケーションズ)」 を読みました。
 なぜピアな関数型言語がないかというと、やりたいことをリーズナブルな作業で実現するにはラムダ式に固執できないということですね・・・多分。実際かなり副作用のないピアな言語もあるとか雑誌に記述がありました。ならば、曖昧性処理と同じだなって。つまり、曖昧性はメモリを沢山使って、超並列処理すれば解けるというのは、非決定性チューリングマシンを想定する事に同じではないかと。そんな議論は理論としては面白いですが、現実の技術者としては、ピアな心を捨ててまでも、実現したいものがある・・・わけで。 
 

 話を戻します。曖昧性ってどんなところから生じるのでしょう。言語の場合は言葉の生成系が深く関与することがらだと思えるのです。つまり、異なる内容を表現しようとしても、同じ単語列を生成してしまう・・・、オーバーロード現象ですね・・・これが曖昧性の原因になっている。
 文解析を様々な文法を適用して解析していくのですが、それら文法は言語現象のある断片でしかない。したがって、文を解析した結果は多くのゴミと一つ、二つの有用なものというようにメモリを食い、後工程でフィルタリングしていかねばならないほどの量のデータができる、困った状況となるのが常態ということになります。人間の脳もそんな状況に晒されているのではないでしょうか。でも上手くやってる。それはメモリ容量が大きいということと、超並列計算能力と、過去の記憶として予想されるシナリオがあって、「常識的な解釈」によりゴミの爆発を防いでいるからだと思います。
 言語だけでなく、画像認識も同様であると思います。「常識的な解釈」は錯視という問題もはらみますが、大抵は上手くいくようなものです。解釈が間違っていたら、パターン認識部位でなくて、その上位の認識領野で解析結果を書き直していく・・・そんな戦略でしょうか。
 
 未夢が文解析で遭遇している曖昧性は次のものです。
(1)形容詞の連用形の品詞
  「美しく」は形容詞(英語的な意味で)でしょうか副詞でしょうか。これが結構面倒な処理を惹起しています。
(2)BE動詞の生成
  ・花は美しく山は緑だ。------>「花は美しい+BE動詞」+「山は緑+BE動詞」
・花が美しく写っている写真を撮った。--->BE動詞は生成されない。
 
(3)名詞なのか動詞の未然形なのか
  ・歩きが遅い。
・学校へ歩き、疲れた。
 
(4)並置助詞、接続詞の懸かりの範囲
(5)格の深層
 
こうゆうものが、解析ゴミを多産する原因となっているのです。
 
 
 
 それにしても、関数型言語って形式美というものがありますね。独特です。大体ラムダ式って、「数学上の関数でコンピュータ言語の関数ではない」という意味ですよね、多分。持って回ってるって感じもしたりします。学生時代にオートマトン理論とか学んだときに、定理の証明を読んでいるときに感じたものでもあります。懐かしくもあり、構えてしまいそうでもあり、かえってJavaにぬくもりを感じてしまうのでした。
 
 

おわり