考察:「思考空間へのイメージの取り込み」

by 小山明雄



 思考空間にはオブジェクトとオブジェクトの属性が配置されますが、そのオブジェクトを作る元は、動画像データですし、自然言語の文章です。信濃設計書では、動画像データを解析して思考空間にオブジェクトを設定するのは若葉モジュールで、日本語文章から思考空間にオブジェクトを設定するのは和葉モジュールです。そして、思考空間が青葉モジュールとなっています。今回は、若葉モジュールの処理を考えていって見たいと思います。
 
 画像は、先ず2値画像化します。ここのところは、色とか濃淡の中から目的のオブジェクトを表現している画素は何かということを推定していくこと、以下の処理の仮説として有効画素を決定する処理です。平行していくつもの2値画像を生成して平行処理していくことも技術ですし、バックトラックして、2値画像を解析結果から更に有効な2値化方法を推定して、画像認識処理を繰り返すというのも技術となるわけです。
 この2値化処理の技術は、テクスチャーや線分の抽出のように、ぼやけや、ドットパターンでできたテクスチャーの輪郭線の抽出などで、曖昧性を管理していくにも必要となるものです。結構、画像処理は投機的なことを要求される技術なわけです。
 
 画像解析の基本的なオントロジークラスは次の3つだと思われます。
(1)基本クラス
・孤立点
・端点
・枝分かれ点
・曲線を決定する特徴点
(2)中間クラス
・点
・線
・領域
・テクスチャー
(3)上位クラス
・帯(川)
・島
・半島
・空間
・円、楕円
・四角、台形
・三角形
 
 
 
 
 基本的に、輪郭線を得ることから画像解析は行われますが、この画像解析のオントロジーをそこから推定していくのが基本技術だと思われます。いずれの、オントロジーもどの領域範囲でのものかということが決定的に重要となります。図形は拡大縮小が成されるからです。平行移動も成されます。これらの変換には図形の認識結果は左右されません。そこで、領域を設定して、その枠内での相対的な、線分や領域の大きさを求めて、画像認識は進行していくことになります。そして、線分として認識するには幅が重要になります。狭いほど線分らしさが増ます。また、対向する対線分の同定してできる帯も対向線が近いほど線分に近くなり、遠いほど領域に近くなります。テクスチャーも、図解が領域内をくまなく複雑図形、同一傾向パターンの繰り返しということであれば、これは線分や点列ではなく、色と同じ図形の性質を表す物という解釈になるのです。
 
 この画像領域の切り出しは、2値画像の特徴を表す領域をまず解析して決定することになるでしょう。細かな点列が有るところとか、空白が多いところとか、線らしさが一目瞭然であるとかです。そうして、領域を細部から拡大したり、大所から縮小したりして、オントロジーを得ていきます。線分が領域外にのびているときにはそれを追跡していきます。そんな処理を繰り返して、画像データ全体を順次解析して、全体として意味の整合性のある解釈がなったら、認識処理は終了で、思考空間にオブジェクトを作っていく作業に入るわけです。解析結果は2次元とか3次元のマップに記号で記していきます。
 
 
 オブジェクトは、オントロジーの上位クラスの配置をパターンマッチングしていくことで、作っていきます。この辺は、前に、画像認識で議論しました。パターン解析は、曖昧性が大きいですから、弛緩法、投票法でもっとも知識の枠組みにマッチするものを選択していく過程に成ります。
 知識として様々なパターンを持っていて、パターンの解釈の深さも様々です。必要に応じて、解析のレベルを設定することになります。
(1)動物であることが分かるというレベル・・・半島とか島の分布で分かるレベル
(2)犬だと言うことが分かるレベル・・・認識図形の傾向的属性解析で分かるレベル
(3)ロロという特定の犬だと分かるレベル
・・・詳細な特徴的属性で分かるレベル
 
 そこで、線分群を解析していく議論になるのですが、線分列1本では曲線近似がよいのか、直線近似がよいのか曖昧です。さらに直線の近似のしかたも、かなり恣意的に行えます。しかし、対向線があると、木とか動物の体とかかなり曖昧性無く半島とか帯とかを同定できるようになります。パターン認識にはこの辺の性質を利用していくと上手くいくのではないでしょうか。

 この対向線の検出は、もっとも近傍の輪郭線上の点を発見していくことでなします。それでも実環境では複雑な処理になりますが、投票法とか、弛緩法を多用して、解決していくことになります。この対向線検出アルゴリズムは画像の近傍解析を大局からの解析に結びつけるキーテクノロジーです。やはり、大局的な解析を行うライブラリを利用できるようになりたいわけで、画像の近傍解析だけではテンプレートマッチングにのみ閉じこもり技術が拡大していかないですし。
 
 
 パターン認識処理の手順としては、先ず、部分的ではあるが特徴を表すパターン要素列でマッチングをとります。ある程度マッチング率が高ければ、連想を発火します。そうして、大きな全体のパターン要素で本格的にマッチングしていきます。マッチング率がある値以上であれば、認識の候補とします。これを連想しているパターン群全部に行います。そこで、マッチングの最も高いものを「認識した」とします。あとは画像全体で弛緩法を適用して、シーン知識の枠組みに合致するのが最終決定した「認識」となるものです。それでも一意に決定しない場合は揺らぎを起こすことになります。
 
 マッチング率=マッチしたパターン要素数/総パターン要素数
 
 
 パターンマッチングは最外郭の図形の形状と、その最外郭の図形の内部に含まれる図形(テクスチャー)の配置をトポロジカルに対応付けしていくことで行います。これは前に画像認識関係で考察して得て方法です。




おわり