考察:「パターン発見装置2」

by ご近所のきよきよ


 

 未夢の辞書作成作業は、テキストエディタを使う方法を編み出せたので、作業が大幅に進展して、今は予定の半分が行ったところです。1ヶ月半で予定の半分・・・・・。ということで、知識ベースの作成を本格的に視野にいれました。そこで、オントロジーと自律学習機構を考え始めています。先ずはパターン発見装置を設計していこうということになりました。知識ベースの基本はパターン発見だという思いがあるからです。


 パターン発見の基本は共起関係の抽出です。同時に起きる身体性情報(オントロジー)のセットがパターンなわけです。「同時」というのもにも時間間隔の問題がありますから、実際には同時性の間隔を変えて、複数の共起データを得ていくべきなのですが、私の場合は日本語文章ですから、共起というのは、節、文、文章、文書といった単位での共起を対象にすればいいのですから、時間間隔というより空間間隔を問題にすることになります。

 それと、人体性情報はオントロジーで表現した記号の世界だけを対象にしますから、オントロジー記号群のデータの中の共起データを得ていく事になります。先ずは、オントロジー記号が記された辞書を作る事になります。基本的には、ひらがな、かたかな、漢語のセットがオントロジーの基本になるはずです。そして、これらの語の共起データをコーパスを解析して得ていく事になります。

 先ずは、「、」とか「。」とかの区切り記号で分断して共起を解析していくことで、それらをカウンタできるようにRDBをつくってスタックしていきます。本当は内容検索のできる、データベースマシンを作りたいのですが、そんな資金は有りませんから、先ずは今できる技術で、共起解析を実現します。遅くても仕方がないと思います。共起解析は文書単位に行っていきます。文脈情報も作っていきたいから、そうしていきます。


 その後に単語共起、単語抽出をしていきたい。RDBからプレーンテキストにして、テキストの最初から最後まで、単語候補を切り出しては、同じ候補が別の場所にあるか判断していくのです。ペアが有れば、プレーンテキストに追加書きしていきます。面倒な処理は、単語候補の入れ子構造の管理と、時間が掛かる作業だということですね。入れ子構造の情報は、文脈情報として利用出来ますから、これは押さえておきたいところです。共起は、この文脈情報のなかでのペアリングということで、係数していきます。


 次に、未夢の辞書をベースにしたオントロジーを実現して、さらに格とか属性(係り受け)の共起を解析していきます。それも、共起データ収集と解析、すなわちパターン発見装置を利用して行っていくつもりです。これでどこまで行けるか研究していってみます。そのなかで、しっかりしたオントロジーを構築していくつもりです。1年くらいかけたいですね。未夢の辞書の基盤は予定より大幅に早く出来そうですから、これはやっていくべきことです。重要なステップです。そうすると、学習機構が作れるようになると思います。頑張りどころですね。


 

おわり