考察:「和葉設計書」

by ご近所のきよきよ



 日本語文解析を今まで、文法とか構文パターンとかを手がかりに実現することを考えてきましたが、どうも曖昧性処理がスッキリ行かない。とくに知識内のイメージと文の持つ意味との整合性処理が複雑怪奇になってとてもコーディングしていく気になれない・・・そんな状況でした。でも、文の意味をイメージで捉え、意味を2項関係で捉えるようにして、構文解析もフレームパターンを利用して、フレームのスロットに単語を入れていくようにし、意味をフレームに記述するようにする解析手法にする。するとなんだか技術がスッキリしました。機械学習にも耐え得るし、曖昧性による組み合わせ論的爆発も起きなくなる・・・そんな理想郷に至った気分です。今回をその辺を語りたく思います。


(例文1)信子は美しく、楽しく勉強をした。

(例文2)信子はのんびりと、楽しく勉強した。

(例文3)信子は美しく、CDは楽しい。


 曖昧性は品詞(「美しく」は形容詞とも副詞とも取れる)、並置(and,or関係で語を並べる)、単語(同音異義語・・・音声認識に重要)、意味のレベル(brittle:もろい「ガラス」、冷たい「人」)で発生します。これらの曖昧性を解決するのは知識に裏打ちされた文脈解析によってできることです。しかも、意味を2項関係にして捉えていくと、曖昧性を低減していく必要さえなくなるようです。知識を発火することが文章の意味であり、曖昧性は知識が曖昧ならば低減できないものである・・・といえるのです。

 (例文1)は「信子は美しい」かつ「信子は楽しく勉強した」とも、「信子は優雅に楽しく勉強した」と取ってもいいのです。受け取る側の知識の裏付けがどうかが問われるだけです。実際2項関係ですと、いずれの解釈も、「be(信子,beautiful)」が生成されるでしょう。

 文解析は先頭から逐次、2項関係を生成していき、時々主格とか目的格がなにかなどの推論していき、知識と照合していき、所々、解釈が変になったら、文解析に制約を施し、再度解析していけばいいのです。組み合わせ論的爆発は発生しません。(例文3)の場合、「美しく」の主格の後に、「CD」という「信子」と違う「主格」が立てられたので、「信子は美しい」と「CDは楽しい」の2単文に分離すると推論していくことになります。



 では、フレームベースの文解析を論じていきましょう。

フレームベースの解析は次のデータから構成されます。

(1)待ちの単語、あるいは品詞、意味記号:(word;信子)とか(type;ND)(mean;+human)

(2)待ちの文脈:(mean:-selective)・・・-は否定を意味し、+は肯定を意味する。

(3)待ちパターン:[XP AV]...VB

(4)意味定義:2項関係意味記述・・・この意味が文の解釈として残る。


 例文1で動きを示します。

(1)「信子は」はND(信子)とXX(は)からXPという品詞記号を与えられます。で、待ちパターン[XP AV]...VBに埋め込まれます。

(2)「美しく」はAN(美しい)とAV(美しく)の曖昧性があります。AVと解釈すると、パターン[XP AV]...VBに埋め込めます。もう一つはパターン、XP_ [AN ND]_ANDです。ANDは並置詞です。

(3)「楽しく」はAN(楽しい)とAV(楽しく)の曖昧性があります。AVと解釈して、パターン[XP AV]...VBに埋め込めます。

(4)最後に「勉強をした」というVBを得ます。ここで少し議論があります。「勉強をした」は連語です。単語辞書の他に連語辞書を持つ必要があります。特に、「した」は漢語動詞の為に特に必要になるものです。これも、待ちパターン技術でカバーできることではありますが。ここは連語辞書によって解決するとしておきましょう。

 連語には「数学の勉強を急いでする」とかのパターン変形も考慮が必要です。これもフレームベースで定義して、最終結果がVBと成ると良いようにしておきます。

(5)パターン知識に意味を記述しておきます。 パターンのスロットの番号と2項関係記述で、単語から得た意味と総合して、完全な意味2項関係記述を得ていくのです。ただし、格は動詞によって決まりますが、意味としては記述しておきません。格は文脈で決まるからです。文脈解析プロセスを動詞を読み込んだきっかけで起動して解決します。プロセスはコマンドパターンにして学習によって鍛えられるようにしておくのがベストでしょう。

 
 

 

おわり