趣味のページ

　パターン発見はプリミティブ記号がどの順序で、どの組み合わせで生成するかを係数していき、出現頻度が大きな物をカテゴリーとして切り出して行く事です。そのときの文脈情報（パターン認識装置の体験している事）を連想付けると言語系ができるのです。

　オントロジーもカテゴリーもXMLで表現してデータベースを作っていく事にしましょう。XMLは自由度が高く柔軟で、しかもプレーンテキストですから内容検索に有利です。内容検索は全データサーチを行わねばなりませんから、HDDなどのシリンダー単位に全レコードサーチしていくことで高速なアクセスを実現していきます。単一レコードの検索スピードは問題でなく、全レコードスキャンスペードが高い事が必要なのです。

　データベースに記録するのは基本的にオントロジー記号列です。それをどんどんためていく。記号コーパスですね。

　カテゴリーの基盤は連続する、高頻度オントロジー記号列です。これを先ず切り出しカテゴリーとする。一つのカテゴリーは別のカテゴリーと関係を持つので、関係もカテゴリーとして管理して、頻度を計数していきます。これがカテゴリーベースです。

　カテゴリーを纏めると規則性が表れます、これもカテゴリーとして管理していきます。抽象化カテゴリーシステムですね。規則はパターンですから、パターンをもカテゴリーとして記号化して計数していって、本当に有用なカテゴリーかを評価していきます。

　プリミティブ記号、カテゴリー記号は無数にあり、データベースにあるそれらの記録を全部評価していかねばならないので、データベースの全件アクセス機能の高速化が大きな技術となります。無論、データベースに記録するデータ量を刈り込んでコンパクトにしていくことも必要でしょう。データ構造を工夫して、上位のカテゴリーのみを評価すれば、下位のカテゴリーは検索しなくて済むようにもできるでしょう。そこは技術です。ですが、基本は全件スキャン機構です。これがあるとパターン発見機構を実現できるのです。

考察：「パターン発見装置」