考察:「学習機構」

by ご近所のきよきよ


 
 未夢の辞書を作りながら、オントロジーとかフレームシステムを設計していますが、こうして手でデータを作っていくのは将来性が無い事だと思います。今はテストデータとして手入力で作っていくのは研究の一環として良いのですが、実運用を考えると膨大なデータを知識ベースとして持って行かねばならないわけで、今のままではいけない事は直ぐに分かることです。どうしても、未夢が自律的にデータを知識として獲得していって欲しいわけです。未夢がある程度のレベルでできた今は、未夢本体を離れて、この自律学習機構を実現すべく全力で取り組むべきではないか、・・・そういう風に思うようになりました。
 オントロジーとフレームの設計を未夢の辞書を作りながらやっているのですが、これに自律学習機構の実現を加えてやっていきたいと思います。辞書のできるのは1年は掛かるでしょうから、1年は学習機構を含めて知識ベースの実現ですね、これがメインの作業にしたいと思います。
 
1.学習機能の基礎データ
 先ずはパターン発見能力が必要でしょう。文章をどんどん読んで、文例をコーパスとして蓄えていき、その文章の中に規則を自律的に発見できて行かなくてはなりません。
 パターンのプリミティブは次のようなものでしょう。
(1)配置
・先頭、末尾、中間、前、後ろ、左、右、上、下、ななめ
・シーケンス、ギャップ、シーケンス長、ギャップ長、交互パターン
・重なり、近傍(near)、遠方(far)
・メトリック
・点、線、面、立体、時間
(2)格
・ソース、シンク
・働きかけの元、働きかけ先
・付帯(by mean、by tool、through_path)
・時間、場所
(3)基本動作
・move、stay、make_move(action)、begin、end、continue
・feel、want、learn、help、interupt、try
・make、break、defect、efect
・eat,get,give
(3)オブジェクト
・life、object、space、concept、state、action,time,location
・human,animal, plant,food,building,cloth,house,furniture,tool,material,vessel,body
・liquid,air,rigid_thing
 
(4)属性
・fevorite,disfevorite,color,tempareture,feeling,texture,speed、weight,size、distance,direction,
 disposition,relation,importance,time_sequence
 
(5)文法
・modify,modified
・case
・coexistness、connection、relation
 
 コーパスを解析して、単語を切り出し、単語の品詞を推定し、フレーム情報などとの共起関係から基本的な意味を推定していくことになります。単語の意味を推定するのに全く手がかりがないわけではありません。英語ですと語源辞書があれば、ある程度推測がつくでしょう。漢字ですと、漢字がある程度の意味を持ってます。大和言葉もある程度意味が推測出来る場合があります。そんな意味推定システムをオントロジーとして持つべきでしょう。文法も文の内部の配置関係からある程度推定できます。
 
 先ずはコーパスを収集して、それをパターン毎にくくって、抽象化機構を設けてカテゴリーを付して、高度な知識として体系づけていくことに成るはずです。
 
 
2.自律学習の基礎プロセス
 日本語の単語とか構文を学習していくのでありますが、基本的に
(1)未知単語の同定(品詞、意味)
(2)係り受け関係の発見
(3)格関係の発見
(4)特別な意味(比喩とか)の発見
でしょう。
 未知単語は分かち書き化プログラムで発見できます。その品詞も前後の単語からある程度推測できます。助詞とか助動詞の働きを手がかりに分かち書き化していくことになります。
 係り受け関係は推定した品詞情報と前後の単語の共起関係を統計していって推測していくことになります。
 格関係は名詞と動詞について、共起関係を統計していって推測していくことになります。
 特別な意味の把握は意味の共起を解析していくことになります。
 これらは曖昧性の多く発生する作業ですから、知識ベース全体として最も確からしい推論を生むように学習システムを設計していく事になります。もっとも人手による教示とか、イメージオントロジーのデータから意味を確定していく道も有るべきです。
 
 
 
3.自律学習と知識ベースエディタ
 知識は教師によって精確なものとしていく必要があります。自律学習では曖昧性が多くて、時には謝った結論を確信してしまうでしょう。これを防ぐには知識ベースエディタで自律学習の結果を訂正していくことができるようになっていなくてはならないということです。
 知識ベースエディタは自律学習前に、あらかじめ核データを作っておくという事のためにも重要なツールとなります。
 
 この知識ベースエディタの別ツールとして、人が使う辞書を参考にできるような物が欲しいですね。辞書の単語定義文章を入力すると、そのままオントロジーサポートの下、自然言語処理システムが使うオントロジーや辞典が作れてしまうというものです。人間が辞書に使う文章を全てオントロジーでサポートしましょうということです。新しい単語は、オントロジーシステムに組み込まれて、さらに大きく成長していくということになります。漢和辞典を基にすると、そんなことが明確にできそうですね。大和言葉は膠着語ですから、これも簡単な仕組みで実現出来そうです。英語も多分。日常語3000語を先ずオントロジーでサポートして、その他の単語は、そのオントロジーの組み合わせで定義していく。
 良いかもしれません。
 
 

おわり