考察:「音声認識への画像処理技術の応用」

by ご近所のきよきよ


 
 県立図書館で、「ウェーブレット解析の産業応用:新誠一、中野和司監修 朝倉書店」を読みました。音声認識へのウェーブレットの応用技術が解説されているのですが、それによると、カクテルパーティ効果の研究ももう成されているんですね。2001年には論文が出ているとのこと。この技術はBSS(ブラインド・ソース・セパレーション)といって、音声だけでなくで電波の音源分離も目指すものだそうです。
 実に画期的な方法で、夢中で読んでしまいました。基本は確率論をベースにしていて、入力信号を分離出力するマトリクス(ニューロコンピュータ)を考えて、そのマトリクスの持つエントロピー(シャノンの情報量)を最大にするように設計していけば最適な分離ができるというものです。これ、InfoMax法と読んでいるそうです。この方法はデータマイニングの欠測値を推定するEM(エステイメーション・マクシメーション)アルゴリズムと同じものです。
 データマイニングでは時間-周波数解析なんてしないですから(周波数のマイニングなんて普通しないですよね)、ウェーブレットの出番は無いのですが、音声では時間-周波数解析をしなくては成らず、本書ではウェーブレットを応用して周波数分析します。各周波数毎にInfoMax法で音源を分離していきます。分離した要素はInfoMax法の適用周波数に依存して(マトリクスが周波数で異なるから)出力番号が、異なった音源に対応づけられますので、ある時間内での相関関係を利用して、同じ音源のものを周波数の昇順に並べるという操作をする必要があります。
 音声はホルマントできれいに分離できますから、合成ホルマントでも、相関が低いところは必ずあるわけです。それは分離情報に入っている。そしてそれから段々に相関の高い周波数部分を分離合成していき、最後に最適な分離を得るとするのですね。
 
 音声を一次元の時系列データとして見るならばそれでいいと、合点しましたが、でも、時間-周波数解析をするならば、2次元で考えたいものと、・・・ふと思いました。2次元とは、周波数と時間推移です。2次元にして考えれば、画像処理の技術が使えるし、イメージしやすいですよね。だから、結構高度なパターン認識技術を展開できると思うのです。たとえば、次の図をご覧ください。/k/は崩れてますが、画像パターンとしては認識できるものです。


図1. 音声ホルマント(「音声認識システム:鹿野清宏他 オーム社」)

 
 調音結合で/a//k//a/の/k/が消えて、/k/の後ろの/a/が少し太めかなというのが見えます。これですが、右の/a//k//i/と比べると、画像としてみれば/k/は/a/の部分に集約していると解釈できることが分かります。/a/に/k/と/a/の情報があるのです。/k/て一過性の音素だから、そうゆうものは母音に集約しやすいとして、解析すべしということです。さっすれば、音声認識を画像処理としてみたとき、強力なパターン認識ができるということになると思うのです。たまたまでしょうか。
 
 さらに、カクテルパーティ効果について考えてみます。
 ホルマントには濃い基本となる固まりと、薄い状況に応じて変わる部分があります。話者の特定はこの状況に応じる部分だと思うのですが、なんか、特別な部分構造をしていると本で読んだ記憶があります。音声を2次元データで表現すると、ファジーマップに成るんでしょうか、確信度というか、確率というか、そうゆうものが2次元パターンとしてある。
 音源が一つならば、そのパターンのテンプレートマッチングをして相関を求めて、認識結果にすればよしとして、音源が複数あれば、部分特徴のマッチングから全体のホルマントを推定して、推定結果を合成して、今ある時間-周波数2次元パターンと照合する。その相関を求めて、高ければ決定とする。そんな技術となるように思えます。
 
 
 

おわり