随筆:「思う事(画像理解)」

by ご近所のきよきよ


 

 本を良く読むほうだと思うのですが、やはり考えを深めると、本に書いてある事が本当かなと疑問になることが多々あります。そこが創造性へのきっかけになるのだと思いますが、独自の考えを纏めるのは大変なことだとも気づくわけです。自分の考えと、本の考えとが違ってきたのは何故とか、場合によって技術を変えねばならないのではないかとか、考えると、思ったより沢山のことを追求していかねばならないのです。

 このところ、画像認識をずっと考えています。あまりやられていない技術分野のように感じるからです。顔認識とか、特定のオブジェクトを発見する技術は研究されているのですが、不特定オブジェクトを認識する技術はまだ無い・・・と思うのです。特定のオブジェクトの検出ならば、テンプレートマッチングとか、特定の特徴セットを検出することでできます。でも、不特定の場合、そもそもどういうテンプレートとか特徴セットを想定して、画像解析していけばいいのか分かりません。先ずは、テンプレートとか候補特徴セットとかを推定していく処理が必要になってくるのです。この点がまだ研究されていないようなのです。

 パターン認識といいますと、特徴セットを事象として、サポートベクトルマシンで、線形分離することが定石のようです。たしかに、特徴の部分的な変化をも考慮して、頑健な認識結果をえることができると言います。でも、私はなんか不満なのです。


 画像認識は線形分離できるように単純でないと考えるからです。文脈によって、画像の解釈は大幅に変化すると思うからです。同じ画像でも、ある時は”S”と解釈できるけれども、あるときは”5”になったりします。そんなことができる技術はサポートベクトルマシンではできないことです。無論、サポートベクトルマシンは有用です。単に画像のァ曖昧性の揺らぎでしかない問題には強力な手法になるでしょう。でも、一般に画像認識という問題では、力不足を感じるのです。

 さて、どう画像認識を実現していくか、これからの頑張りですね。努力ですね。それをいま私はやっております。


 基本的な考え方は、次の2つをどう作っていくかということです。


 画像認識も音声認識も同じ技術だと思うのです。音声認識では音素がプリミティブで、画像認識でも音素みたいなプリミティブが存在して、その上の単語とか文章に相当する画像オブジェクトを推定していく。プリミティブセットの特徴群で複数のオブジェクトに認識対象を絞り込んで、最後に詳細に解析して一つに検証していく。

 
 

おわり