考察:「文章の認識」

by ご近所のきよきよ


 

 文章の認識って、係り受け解析したり、格解析したりして、意味ネットワークを作る事でしょうか。世の中には結構長い文を書く事を常としている人が多いのですが、そんな人の文を読んでいると、文の中間くらいで文頭の単語列なんて忘れてしまうのに気が付くのです。それでも文の意味は把握できます。しかも、そんな文を味わっていたりします。うーむ、人間は計算機と違う・・・。

 そこで思うのですが、やはりオブジェクト(登場人物や物)のプロフィルとして文の内容を租借してしまうのが文章解析の要諦ではないかと。係り受けや格のネットワークでなくて、もっと意味的に踏み込んだフレームとして把握していく。それを、分かち書き化からの一連の処理として文頭から文末まで重層的に行っていく。係り受けが有る程度の単語列を挟む(特に動詞を)とどうせ、前の方は忘れてしまうのですから、係り受けでは、その先への修飾はないと判断して、そのなかで意味のつじつまを合わせる。

 こうすると、どんな長い文でも解析できるようになります。もちろん文の途中でフレームを永続化していくのですが。


 今はオントロジーをベースに知識ベースを構築しています。それがなったらまた、文章解析プロジェクトの未夢を改版していくつもりです。改版のアイデアがどんどんできていくのは楽しいですね。技術書を読んだり、辞書をコーディングしたり、ときには小説を楽しんでいます。そんなゆとりが良いアイデアをもたらしてくれている気がします。辞書つくりには根詰めましたが、オントロジーのコーディングはゆっくり、いろいろなことを考えながらやっていきたいと思っています。そうはいっても、今年中にオントロジーの基盤はコーディングしたいとは思っていますが。


 ニュアンスを考えたり、カテゴリー分類を考えたり、意味の定義文を設計したりするのは楽しい作業です。単語は膨大な量があるから、楽しいばかりではありませんが、今は出来高払いですので、憂鬱にはなりませんね。うーむ、実用レベル5万語か・・・。冷静に思えばきついのです。

 ニュアンスの設計は、文生成での利用を考えていくと精確なものが得られるようです。単語を選択するきっかけとなる情報をどうするかと考えるわけですね。今は、「ロングマン英和和英表現辞典(旺文社)」をベースに「Webster's New World Dictionary」で用法を調べて、カテゴリー化して、意味記号を得ています。今はまだまだ、試行錯誤で、ボリュームを作るまでには至っていません。

 なんかプログラムのコーディングをする気分で作業しています。もの作りしながら考えていくのが性に合っているようですから、今が自然体です。


 オントロジーは、記号相互の関係を明確にしていく作業ですから、やはり、記号定義の上にフレームをかぶせて、記号の相関を定義していくことになります。プリミティブ記号を設定するのは、相互定義フレームをなるべく少なくて、かつ、完備とするためです。プリミティブがなれば、あとは自律学習機構を作っていくだけになります。つまり、あとはプリミティブの組み合わせにすぎないはずというわけです。



 

おわり