随筆:「本を読んで」

by ご近所のきよきよ


 
 11月も後半になって、いろいろ本を読んでいます。12月からはまたプログラムを作っていくというので、その肩慣らしです。読んだのは次の2つ、
(1)脳研究の最前線 理化学研究所脳科学総合研究センター著 講談社ブルーバックス
(2)自然言語解析の基礎 田中穂積著 産業図書
 
 どちらも読んでいてワクワクしました。示唆されるところ大。(1)によると、脳は次の図のような感じで感覚入力から運動出力を生成しているとのこと。
 大脳は運動等の学習やプランニングしていますが、それは曖昧なデータを作ったり、処理したりする系です。そこからの出力はきっちりしない。その曖昧性のあるデータをふるいに掛ける必要があることは想像に難くないわけでして、大脳基底核みたいな系が必要かなと思うわけです。私も、日本語文解析(とくに分かち書き化)はそういう方向で作りました。曖昧性をどんどん出しながら候補データを作っていく。あとの段階で、共起、文法、意味でフィルターをして絞るのですね。(2)でもそんな形態素解析手法が紹介されています。
 
 (2)は平成元年初版のもので、買ったきりずっと読まなかったものです。読んでいる時間が無かったので買ったとき読めなくて、そのうち忘れてしまって、この頃Prologを勉強していて、その自然言語処理への応用が載っているのに気が付いた・・・というのが状況です。でも結果は読まなくて正解で、自分なりに日本語解析の手法を編み出せましたから。読んでいたら真似していただけでしょう。本に有るような事と同じような手法で未夢を作った部分があります。私も結構良い線行ってると思いましたね。無論、(2)に紹介されているアルゴリズムの方が洗練されているのですが。今読む事によって本当に自然言語処理がよく見えるようになりました。
 19年前の本ですから、1文解析技術しか載ってないし、コーパス解析から得られる情報も言及がないです。これからの成書に期待するところ大なのは、文章解析の理論とコーパス解析(テキストマイニング)の結果を分析した情報ですね。談話解析なんかもこれからの技術でしょうか。
 
 さて、(2)を読んでいて気づいたのです。彷徨(かなた)の仕様で詰めてないところあるなって。すなわち、データ駆動でフレームをどんどん起こしていくのですが、それらのフレームをどう組み合わせ、管理し、最終の解析結果を決定すればいいでしょうか。結構インテリジェントの高い操作が必要ですね。ジグゾウパズルのピースのようにフレームデータは生成されるわけで、そのパズルを解いていかねばならない。
 (2)には次の文例が載ってました。
(例文2−1)Have the students who missed the exam take the exam today.
(例文2−2)Have the students who missed the exam taken the exam today?
 例文2−1は命令形ですね。(例文2−1)と(例文2−2)の意味を決定的に分けるものは動詞「take」の形式だけです。こんなものは従来の文解析手法ではなかなか上手くいかない・・・とのことです。彷徨はこんな事にも対応すべく考えていて、データフレームをtakeとtakenによって違って生成することで対応するのですが、フレームデータをどう定義し、そこにどんなデータを埋め込み、処理していくか、これから考えていかねばならないのです。基本的には(自オブジェクト、前オブジェクト、後ろオブジェクト、境界判定記号)という情報は必要と分かっています。生成文法の助けを借りるのか、ゴリゴリプログラムを作っていくのか・・・。
 
 思いつく事は、ソケット技術と到達可能性把握技術ですね。ソケットはどんな構成要素があるオブジェクトに接続するかを管理するデータなわけです。例えば、日本語の名詞には形容詞が幾つも接続するし、句も動詞の連体形で接続します。そんな接続をソケットとして埋め込めるようなデータエリアを作って置くことですね。ソケットがあれば、その下位項目は存在を許されるわけです。
 到達可能性は、形容詞句は名詞動詞で作られる句を含みます。名詞を修飾するのは形容詞句なわけです。名詞が検出されたとき、それは助詞と動詞の組み合わせで句を形成し、形容詞句になる可能性があるから、名詞から形容詞句は到達可能性があるというのです。動詞には到達可能ではない。で、名詞を修飾する成文として名詞が形容詞句を経て可能となることを把握しておく。そんな到達可能性の把握技術が、データフレーム統合技術として必要になります。
 
 

おわり