随筆:「また失敗しました」

by ご近所のきよきよ


 

 未夢を4度改造しました。2回目は曖昧性処理でのデータ組み合わせによるデータ爆発に対応するもので、後の2回は、永続化に関して行ったことです。それも永続化の2度目は曖昧性処理によるデータ爆発に対応するものでした。なんでここでまた爆発したかというと、改版2での対応は曖昧性を絞っていくことで解決しようとしたため、曖昧性処理としては後退したものになっていたのです。そこを文章の永続化によって、メモリの問題は無くなった・・・ということで、また曖昧性を全部保持しようとしたのです。そうしたら、ファイル化でも耐えられないような爆発を起こしてしまいました。

 鉄腕アトム復活の巻きにそんな場面がありましたね。お茶の水博士が苦しんだ。だいたいが、曖昧性のものは全て辞書登録で対応しましたので、辞書項目を全部拾うようにすると爆発してしまうのです。特に、短い単語に重複度が多くなりました。動詞語幹、終助詞、格助詞、助動詞活用形とうとう。


 で、永続化でも爆発に対応しようとしたのですが、データの断片化が足りませんでした。また、係り受けを断片化して対応していなかったので、永続化しているのにメモリ不足を起こしてしまいました。そこで、今は5度目の改版を考えているところです。今度は改版というレベルでなく、アーキテクチャを根本的に変える作業になりそうです。未夢をもう一度1から作り直す・・・そんな状況に追い込まれました。また、半年か1年の工程が必要です。

 今度は日本語分析を先にやろうと、4月、5月は日本語の性質と意味処理のあり方を文章に依って調べて、その研究成果をもって未夢の設計をしたいと思います。基本的なアーキテクチャはこの2年の経験から見えてみますので、あとはブラッシュアップだけです。気落ちせずにやり遂げたいと思います。


 お茶の水博士はついに天馬博士に助けられてアトムを復活させるのですが、さて、天馬博士は現れるでしょうか。うーむ、独力でこの窮地をクリアしないといけないでしょうか。頑張りましょう。今度こそ最後の改版にしたいですね。


 
 

おわり