考察:「彷徨(かなた)の構想」

by ご近所のきよきよ


 
 6月中に、未夢改を動くまでにもってけました。これから負荷テストをしていくところです。未夢の前バージョンよりも入り組んだ処理をしていますので、結構苦しみました。でも、2週間でコーディングから単体テストまで一応やり遂げる事ができたのは嬉しい限りです。でもまだ完璧でないのは、前バージョンでは曖昧性を大どんぶりで掬うようにしていて過負荷に耐性があったのをそぎ落としているから、過負荷テストで掬っていく必要があるということで、明白に断定できることです。これからのデバックの努力で、未夢を完璧に持っていかねばならない、そういうことです。
 
 ということで、7月は未夢の過負荷テストで明け暮れることになりそうですが、その先も考えていきたく思います。非文法的、談話的文章の解析です。彷徨プロジェクトを実施に移していきます。今年の大きな目標の一つは日本語文章解析の基盤作りですから、急がねばなりません。
 
1.処理構造案
 今のところ、次の図のような手法を考えています。フレーム駆動型の文解析です。単語とか単語列パターンから候補の意味フレームを推定し、それの確信度を管理していき、最終的な意味を推定していこうというものです。
 
 今回は処理スピードよりも、ものができる事を主眼において、できるだけ柔軟なデータ駆動型のプログラミングにしていくつもりです。データベースにフレームを保存して、それとのマッチングで確信度を計算していきます。単語や単語列パターンは無数にあるでしょうから、シングルコアなCPUのパソコンでは相当な負荷でしょうね。メモリも心配です。途中経過もデータベースに保存していこうかなとも考えています。どうせ、学習機構が必要になってきますから、ここで一気に基盤技術を構築するというのも、野心的でなかなかよろしかろうと。
 
 データベース周りはRhuプロジェクトとして、しっかり作っていきます。キーの組み合わせインデックス機構も自前で作っていきます。それで連想システムとかプライミングとかを実現していきます。連想キーとかプライミングとかも作業データベースに作っていかないとメモリオーバーフローしてしまいそうですから、これも工夫ですね。とにかく、動く事。合い言葉は、「動いてますか?」ですね。

 


 

 

 
 
2.彷徨の彼方に
 意味理解、推論システムの構築として香澄プロジェクトを起こすのでした。未夢/彷徨とのインターフェースはProlog形式のコマンドにするのですが、内部はJavascriptのRhinoを使って行こうと考えています。RhinoだとJavaのクラスを動的に簡単に扱えますので、プロセスはJavaで作って、推論処理はRhinoで作ったPrologで行こうと。
 
 ということで、今、RhinoとPrologを勉強しています。両者ともすごく使い心地良いです。これらは、「日経ソフトウェア2007.07」で手に入れました。感謝、感謝。「日経ソフトウェア」愛読しています。
 
 今年中に香澄プロジェクトを開始したいものです。夢は膨らみます。
 

おわり