随筆:「しきり直しの文解析」

by ご近所のきよきよ


 
 長文が普通と感じました。
(例文1)「わたしが学校の往き返り此一年ばかりが間毎日の様に行き逢う人があったのです」(「自然と人生」徳富蘆花著)
 
 なんて長文、日本語では当たり前にあらわれます。もっと長いのもごろごろ。長文だからといって分かりづらいこともありません。区切りが規則的で、しかも係り受けは単純明快です。無理がない。
 なぜ、未夢でこの日本語の性質に着目して文解析をしていなかったか。それは、文法に主眼を起きすぎたのかもしれません。昔、悪文について本を読んだりして、どうしても文法解析主体にして、悪文も内包させようかなと、信念ができてしまったのかもしれません。でも、未夢の処理結果が、膨大な選択肢を生成して、メモリ不足で落ちたり処理に時間が掛かって、実戦に使えないという現状になったことを鑑みると、この日本語の特色(美しい日本語)を考慮して行かなくてはならなくなりました。選択肢は最小限にして、説得力ある解析結果のみに絞って生成していく・・・、これしかないと。
 しかも、分かち書き化プロセスは単語列が長くなるほど、曖昧性が組み合わせ的に増えていきますので、できるだけ短く文を断片化していくことが必須になります。無駄な曖昧性を出さないという戦略ですね、これもまた、例文1のような日本語の特質を利用していくという手法が説得力を持ちます。
 
 考えてみますと、樋口一葉などの文章が特にそうですが、文は係り受けが意味を成さない(重要でない)断片から構成されています。長文は、だから、係り受けの切れ目を探して、処理していくのが良いでしょう。それは、「間」とか「とき」とかの時間を表す名詞とか、名詞の後ろにカンマがある、体言止めとかの手法ですね。基本はカンマで分断することでしょう。さらに動詞でも区切ってしまってかまわないというのが今の私の考えです。確かに、複数の動詞が順々に出てきますが、動詞の格支配を考慮すると、名詞とか助詞の懸かり先が大体掴めるのです。掴めないないのは悪文ということでしょう。それはもう今回面倒観ません。未夢が長文に耐えることが先決です。決めうちで行きます。
 
 それで、今の未夢の手法は、一文毎に分かち書き化してから係り受け解析をしていたのですが、新生未夢は分かち書き化と係り受け解析を一体化します。そして、できるだけ短い断片を文頭から切り出して、その都度解析し、だめなら断片の範囲を広げるという手法にします。といっても、名詞とか動詞を先に検査しますから再試行は多分生じないでしょう。
 注意は、動詞の格支配ですね。基本はコーパスで意味処理して的確な動詞と格のペアリングしていきます。最初の動詞に的確な格でないときには保留するという、曖昧性処理もします。
 ということで、結構高度なプログラムになりますが、オブジェクト指向のプログラミングの良さ、例えば、機能委譲とかの手法を使って、今の未夢と同じような考えで実現できると思います。そう信じて、コーディングに入りたいと考えています。さて、どうなりますか。
 うーむ、文解析も奥が深いですね。まだまだ研究するところがあるようです。研究者の数だけ、手法はあるのでしょうか。
 
 

おわり