by 小山明雄
パターンマッチングにはスラックス・マッチングとタイト・マッチングがあると思えます。その2つの中間にも色々とマッチングの精密さにレベルがあるように思えます。一番簡単なのは、記号セットがあるかどうかを見るだけのマッチングで、一番厳しいのが、記号の配置関係を精密に考慮してマッチングしていくものです。それぞれ目的に応じて利用していくものです。
【例文1】列車は高速だ。
【例文2】列車は高速に走る。
この例文は同じ意味でしょうが、厳密にマッチングするとマッチしません。動詞「走る」というものが例文1では連想によって生成しておかねばならないことなのです。しかし、「列車」の意味記号「+tool」と「高速」の意味記号「+fast」だけを検出して大体あっているとマッチングしていくと両文は一致すると判断されるわけで、このレベルの判断で十分なことって多いのではないでしょうか。実際問題、まずは意味記号が揃っているかというレベルでマッチングしていき、高速に、目的のレコードを収集していくことになるでしょう。そうして最終的な情報は精密に意味記号の構造をマッチングさせていき、得ていくことになるでしょう。
【例文3】青空を見上げていた。
【例文4】見上げると、空は青く、澄んでいた。
この例文も大体において同じ意味でしょう。感覚としては同じことを言っていると判断されます。実際スラックスマッチングではマッチします。「見上げる」という動詞があって、「空」、「青い」が両方にあります。これだけで意味が通じることはシーンモデルでも管理され、支持していくことになるでしょう。それくらい、スラックス・マッチングは重要です。
考察コンテンツで、4つの知識表現を提案してきました。これらはそれぞれ目的に応じて使っていくことになります。それは、パターンマッチングの精密さのレベル管理とも関係していきます。提案した意味表記は次の通りです。
【データ形式1】モデル
【データ形式2】5W1H1F形式
【データ形式3】Stage,Scene,Cutとアクターオブジェクト管理手法形式
【データ形式4】格、オブジェクト、属性のセットで文を表現する形式
データ形式1はデータ形式2から4を含んで、モデルとして統一のデータを管理するものですから、オブジェクトの意味内容を知るときにはこれを参照することになり、その内容のデータ形式2から4までをパタンマッチングして取り出して利用するものです。
データ形式2は問い合わせに答えるのに利用します。問いは大抵、「誰が何故こうしましたか?」というような形式をとりますから、その準備をしておくことは有意義です。
データ形式3は、精密なパターンマッチングしていくときとか、オブジェクトの関係を利用して推論していくために重要な構造です。一番処理ステップを掛けて作りだす基盤的な情報形式です。
データ形式4は文を解析してもっとも浅いレベルの情報です。データ形式1から3までのデータを導くための種となるデータです。
おわり