随筆:「論文を読んで2」

by ご近所のきよきよ


 
 この頃、参考になる論文によく行き当たります。今回は「文書群に対する物語構造の動的分解・再構成フレームワーク」(人工知能学会論文誌21巻5号A(2006年) 赤石美奈)です。単語の共起情報を元に、文書の分割したり、分割した文章からある文脈のもとに文章を再構成していこうというものです。単語の意味は問いません。
 著者は、次の量を定義しています。
(1) 単語tの単語t'への出現依存度td(t,t')=sentences(tt')/sentences(t)
   ここに、sentences(t)は単語tを含む文章の数です。
(2) 語の吸引力attr(t)=Σtd(t'',t)
                t''∈T,t''!=t
   語の吸引力とは、tの文脈Tへの支持度ですね。
 
 私が思うにattr(t)=sentences((∪t'')∩t)/sentences(t)ではないでしょうか。
                    t''∈T
でも、簡易的には(2)の定義で良いとお思います。その方が扱いやすいですし。
 
 で、吸引力最大の語をトピックとすることと、吸引力が飽和する文数のところで文書の切断点とするというのはすごい良いアイデアと感じました。文脈Tについて、吸引力が飽和点を持つ事は。定義の式を見ればなんとなく分かります。
 
 私も、単語列から、ステージの推定をするのに同様の考えを用いました。でも、飽和点とかの定量的な処理は無しに、「意味」との共起で、確信度を計算してくというものです。確信度は(1)のようにきっちりと計測するのでなく、人間の気持ちを大切にしました。未夢はパイロットシステムですからそれでいいですが、将来を考えますと、(1)、(2)をしっかり捉えていく必要があると思います。
 
 

おわり