考察:「指示代名詞と欠落語の処理」

by ご近所のきよきよ


 
 指示代名詞も欠落語も日本語には頻繁に出現するものです。これらは前後の文脈から推定していかなければなりません。その推定する機構を考えていきたいと思います。
 
(例文1)「液体空気をビーカーに入れ室温にしておくと酸素と窒素のどちらが先になくなるか。それは、なぜか。」(「認知科学への招待」 渕一博 編著 NHKブックス)
[説明]
・ 「液体空気をビーカーに入れ室温にしておく」のは誰か?不明(欠落語)
  多分、「私たち」とか「君たち」でしょう。
・ 「それは、なぜか。」の「それ」の先行詞は何?
  多分、「液体空気〜なくなる」という文全体でしょう。
 
 今の未夢は次のようにしています。
 ・主格の欠落語については、先行する単文の主格を取る。
 ・目的語の欠落語については、先行する単文の目的格を踏襲する。なければ、主格を取る。
 ・「それは」、「これは」、「それを」、「これを」などの「こそあど」が格助詞に直列しているときには、先行詞は前の文とする。
 ・「その」、「この」は修飾する名詞と同じ単語を先行詞として取る。
 
 これだけですと、やはり欠陥が多発します。上記の例文ですと、良好な結果が得られますが、日本語はそんなに単純ではありません。
 
 発展の方向としては、ある動詞のある格はこんな単語が来るという情報を持っていて、欠落語を前後の文から選択していくというのがあります。指示代名詞は、ある単文の意味を推定して、同等な単語や、単文を先行詞として特定する、というようになるのでしょう。
 
 
 
1. 文の意味とは
 文の意味とは単語の意味の文法的な並びだけで十分でしょうか。駄目である事を次の例文が物語っています。
(例文2)「山田先生は、学生の目の前で、ある金属を薬品の中に入れて溶かした。学生達は、実験が終わったあと、どうしてそうなるかを熱心に先生に質問した。」(「認知科学への招待」 渕一博 編著 NHKブックス)
[説明]「そうなる」は「金属が薬品の中で溶ける」こと。「山田先生は〜溶かした」という文全体ではありません。「どうしてそうなのか」だと、「山田先生は〜溶かした」という文全体が先行詞になるでしょう。
 
 (例文2)を見ますと、「金属を薬品の中に入れて(金属を)(薬品に)溶かした」という文から単文「金属を薬品に溶かした」というものを切り出し、しかもその単文には原因と結果というフレーム情報が含まれているということを推測する必要があります。
 
 
 ちょっと注意します。「(薬品に)溶かした」と推定しましたが、これは先行の「の中に入れ」という行為と「溶かした」という行為のベクトルが同じであるからということで、「薬品」をターゲット格に推定したのです。もし、「金属を薬品から取り出し、溶かした」ですと、「(金属を)溶かした」という単文を推定することでしょう。未夢はここまでするに至っていません。前途多難です。
 
 このようにケースバイケースで考えて行けば、全て説明のつくことでしょう。でも、プログラムは作れません。そこで、統一した仕組みを考え出さねばならなくなります。
 それは、5W1H、因果関係とか意味のベクトルとか格情報とかを総合したフレームなのでしょう。そこに、項目とかデフォルト値とか関連情報とかをまとめて管理するようになっている。そしてフレームは辞書に保管し、必要に応じて取り出して、単語、単文とか複文、文章とかに貼り付けていくことになります。フレームの選定はプリミティブ意味記号とその組み合わせをキーとして行い、パターンでフィルターして、最良なものを取り出していく。曖昧性を許容すればなおよいでしょう。
 
 
 
2. 意味処理の機構
 これには、曖昧性処理で提案した「鍵と鍵穴機構」を用いるのが良いと考えます。先行詞の意味のフレームが鍵穴です。鍵は、指示代名詞とか欠落語を持つ文の意味フレームと鍵を鍵穴に与えるプロセスのセットです。プロセスは鍵と鍵穴システムのメインオブジェクトから呼ばれて機能します。こうすれば、データ駆動型のプログラミングで実現できます。
 
 情報は全てプリミティブで表現します。そうしないと意味の相同性と相違性を推定できません。それは、動画システムを作った上で、追加の意味として、ここで述べた機構を構築するので、問題ない前提であるわけです。つまり、「鍵と鍵穴システム」は意味処理の上位の意味処理であります。
 
 今はまだこのシステムは未夢は装備していません。今の機能を十分テストしてから、基本的な日本語を理解するようになったら、作り込みたいと考えています。
 
 そして、その発展形も考えています。つまり、評価システムという大きな枠組みで曖昧性を管理していこうというものです。「俺ウナギ」は、「ウナギを(選択して)食べる」、「(選択的に)名前がウナギだ」というような曖昧性がありますが、これに対処するにはそれぞれの意味に対応してフレームがあって、文章情報がこのフレームにマッチしていれば推奨になり、マッチしてなければ非難するという機構を作り込んでいくことになります。大きな意味での「鍵と鍵穴」システムですね。いずれ、その方向に未夢を改造していきます。
 
 
 
3. まとめ
 指示代名詞と欠落語の処理は、敬遠するほど難しい処理では無さそうです。ですが、解を得る情報は多岐にわたります。試行錯誤で情報を集めていかなくてはなりません。ですから、パターンによって処理を制御すること、すなわちデータ駆動型のプログラミングを採用することになります。その駆動データをいかに表現力豊かに定義できるかが、システムの能力という形で現れてくるでしょう。アーキテクチャ設計の技量の見せ所です。
 
 

おわり