考察:「和葉設計書2」
by ご近所のきよきよ
この9年、自然言語処理を色々トライしてきました。結局、2項関係重視で解析、生成していくべきかなと思い至りました。その2項関係でも助詞、助動詞の機能語と自立語の間の2項関係が重要で、これは全てインコアにもって、パターンマッチング、意味解析をして行くべしと決心しました。英語でも、前置詞と助動詞は重要です。同じように処理できるでしょう。
言語はまた、意味をベースにした処理でしょう。そうとも気がつきました。助詞のない文でも格は分かります。例えば次のような文です。
(例文1)私 リンゴ 食べる。
助詞は格をもっと明確にするためにあるのだと思います。また、副助詞のように意味を付加する機能が重要な物があります。
2項関係重視と意味ベース解析とによって、おおざっぱな解析を重畳させて投票によって最終結果を確定していくという技術がクローズアップされます。弛緩法ですね。若葉で開発した技法です。これを文解析に展開していくことにしました。
分かち書き化処理でも、辞書にある自立語を基本に分かち書きしていくことになります。各語にどんな辞書にある語が可能かを記述して、クロスしない切り出し語どうしを意味比較していくことで、最終的な分かち書き化したときの意味を推定していくのです。2項関係で意味を投票し、N項関係でまた投票していく。文法でも投票し、意味でも投票していく。最後に点数が大きい物を採用していくのです。所詮、言語は曖昧だから、多重に意味を解析して、もっともらしい解は何かと捉えていくのです。
意味解析が基盤となりますから、いかに知識とマッチングを高速に行うかが技術として最重要になります。eatが意味ならば更に細かな意味、get.foodとかの意味連想もしたいわけです。オントロジーを知識の固まりとして(しかも文章が下位の意味定義知識だったりする)利用できるようにするにはASAMが必須でしょう。ブレークスルーしていかねばなりません。
以上をまとめますと、分かち書き化の基本と、意味解析のプロセスが一体となった文解析システムが構成されます。
(例文2)美しい青い目をした少女
(解析パス)
美---->美しい 品詞:AN 意味情報
---->美 品詞:ND 意味情報
し---->×
い---->×
青---->青い 品詞:AN 意味情報
---->青い目 品詞:ND 意味情報
---->青 品詞:ND 意味情報
い---->×
目---->目 品詞:ND 意味情報
を---->を 機能語 格を決定(投票する) 付属的意味
し--->した 品詞:VB 意味情報
た--->た 機能語 意味を付加する
少--->少女 品詞:ND 意味情報
女--->女 品詞:ND 意味情報
(説明)
・「美しい」と「青い」はAN ANと続くので可能性のある分かち書き化と判断します。「し」は音声認識ですと「士」、「師」などなど無数に候補がありえます。しかし、知識の中に、「美」と「士」とかは例題がないので候補からはずします。
・「青」の最長一致は「青い目」ですが、「青い」と「目」が分離しても知識にありますから、投票は互角です。「美しい」と「目」も係り受け関係を知識上実現しますから、「美しい」は「目」を修飾すると判断します。「青い目」でも同じです。意味のレベルになれば、どちらを取ろうとかまわないのです。
おわり