考察:「和葉設計書3」

by ご近所のきよきよ



 気候も暖かくなってきて、和葉の考察も熱を帯びてきています。大きく考えを変えるような事実に気づくこともあり、研究もまだまだだなと思うこともありますが、なかなか楽しいことでもあります。考えがどんどん深くなっていくのは愉快なことですから。考えが深まるほどに、考えていた和葉の機構はシンプルになっていきます。その代わり、作っていくべきプログラムは広範囲になっていきます。何が本物か。自然言語処理はどうあるべきなのか、これからなのを感じます。

 今まで、若葉の画像認識機能を先ず作って、言語を学習するシステムの実現に結びつけようとしてました。が、和葉で先ず、手作業で基本的な意味を設定するツールを作って、いろいろ実験しながら、完全に外界を認識していくシステムはどんな作業をするべきかを研究していって、若葉の持つべき機構を推測していく、・・・そんな工程が重要と気がつきました。先ずは言語を人の支えで言語を扱えるものを作った後で、完全な自立の言語獲得システムを実現していく・・・これが正攻法かなと気づいたわけです。言語を獲得する能力は外界を論理的に把握して過程ですから、人工知能は外界を認識できるシステムとなっていくはずなのです。人手で支援作業をしながら、高度自律システムはどういう物かを研究していくということにしました。

 それと、意味の把握には単語レベルで全てを解決しようとしても無理だと分かりました。連語として初めて意味が決定できる場面が沢山あるのです。例えば、次の文です。

(例文1)バスがやってきた。

(例文2)プログラム作りをやってきた。

この文では「やってきた」が連語として問題になります。例文2では「やる」という「execute」ですねが全面にでていますが、例文1は「やってきた」の「来た」という「come」ですね、それが全面にでている。いろいろ議論ができるでしょうが、やはり、コーパスとして意味が与えられ、それを抽象化して、未知の文に対応していくという作業に成るわけです。連語として先ずは意味を与えられ、その連語群に共通のパターンを見出し、単語なり、言い回しなりが学習されるという筋道をとるべきなのでしょう。

 和葉を作るときにはこの方向を見出していきたく思います。言語学習というものを背景として考えていって、本質的な自然言語処理システムとして和葉を位置づけたく考えています。

 そこで、また例文に従って、解析アルゴリズムのアウトラインを・・・。

(例文3)公園より大きなバスがやってきた。

これは次のように分かち書き化されます。


公-->公、公園(名詞)

園-->園 公+園は「公園」に同じ

よ-->よ(終助詞)、より(比較の格助詞、起点の格助詞)

り-->×

大-->大(形容動詞)、大きな(形容詞)

き-->×

な-->×

バ-->×、バス

ス-->×

が-->が(格助詞)、が(接続助詞)

や-->やっ(動詞「やる」)、やってきた(連語動詞)

っ-->×

て-->て(接続助詞)

き-->き(動詞「来る」)、きた(動詞+助動詞)

た-->た(助動詞)


【説明】

(1)ダブった分かち書きがあれば、基本的に最長一致で選択しますが、意味に違いが有ればそれらを残しておきます。あとで、意味知識と照合して選択します。

(2)「「公園より大きな」バス」か「「公園より」「大きなバス」」か解釈が分かれるところです。初めは「公園より大きな」と解釈し、「「公園より大きな」バス」があり得るかを意味知識と照合します。あり得ませんからこれは棄却。「「公園より」「大きなバス」」を選択します。それが「公園」がlocationの意味をも持ちますから更に支持されます。

(3)「やってきた」は連語辞書を引いて、「come」の意味がありますので、「「公園より」「大きなバスが」「やってきた」」は意味が通り(意味知識に合致する)、受理されます。


 こうした処理は投票していって、もっとも得点の大きい分かち書き、意味解釈を選択していくというアルゴリズムにするとスッキリします。また、こうした行為を樋口一葉のような文章に適用しようとすると文が長くて、組み合わせが爆発しきつくなりますが、意味的に落ち着くところでフィックスし、その先はまた0から解析を再開するというようにしていくと良いでしょう。樋口一葉の文章は長いですが頭に直ぐ入る素直さがあります。悪文ではありません。悪文まで対応する必要はないわけで。

 
 

 

おわり