考察:「パターン発見装置」

by ご近所のきよきよ



 日本語でパターン発見といえば、次の事柄でしょう。
(1)単語切り出し規則は何か?
(2)名詞と動詞がどんな順序で配置されるか?
(3)格と属性がどのような順序で名詞、動詞の関係して配置されるか?
(4)単語と単語の組み合わせに意味をどう付加していくか?意味の体現規則は何か?
 
 パターン発見はプリミティブ記号がどの順序で、どの組み合わせで生成するかを係数していき、出現頻度が大きな物をカテゴリーとして切り出して行く事です。そのときの文脈情報(パターン認識装置の体験している事)を連想付けると言語系ができるのです。
 プリミティブとしては、
(1)配置関係
(2)装置の持っているパラメータ(クオリア)
であり、オントロジーですね。パターン発見装置の最大能力なわけです。
 オントロジーもカテゴリーもXMLで表現してデータベースを作っていく事にしましょう。XMLは自由度が高く柔軟で、しかもプレーンテキストですから内容検索に有利です。内容検索は全データサーチを行わねばなりませんから、HDDなどのシリンダー単位に全レコードサーチしていくことで高速なアクセスを実現していきます。単一レコードの検索スピードは問題でなく、全レコードスキャンスペードが高い事が必要なのです。
 データベースに記録するのは基本的にオントロジー記号列です。それをどんどんためていく。記号コーパスですね。
 カテゴリーの基盤は連続する、高頻度オントロジー記号列です。これを先ず切り出しカテゴリーとする。一つのカテゴリーは別のカテゴリーと関係を持つので、関係もカテゴリーとして管理して、頻度を計数していきます。これがカテゴリーベースです。
 カテゴリーを纏めると規則性が表れます、これもカテゴリーとして管理していきます。抽象化カテゴリーシステムですね。規則はパターンですから、パターンをもカテゴリーとして記号化して計数していって、本当に有用なカテゴリーかを評価していきます。
 プリミティブ記号、カテゴリー記号は無数にあり、データベースにあるそれらの記録を全部評価していかねばならないので、データベースの全件アクセス機能の高速化が大きな技術となります。無論、データベースに記録するデータ量を刈り込んでコンパクトにしていくことも必要でしょう。データ構造を工夫して、上位のカテゴリーのみを評価すれば、下位のカテゴリーは検索しなくて済むようにもできるでしょう。そこは技術です。ですが、基本は全件スキャン機構です。これがあるとパターン発見機構を実現できるのです。


おわり