考察:「秋、「音源分離」と「知識フレーム」を考えてみました」

by ご近所のきよきよ



 ふと思ったのです。音は、強さ、周波数、音色の3特性に分けられるのですよね。音声については、周波数と音色要素とかの個人差を表す要素とかが楽器よりもちょっとパラメータが多いという特性がありますね。でも、3特性にあるわけです。

 音源を分離するというのは、個別で鳴っている音源の特性を推定して行く課程と、合成音からの個別要素の音素の推定との統合技術になると思うのです。で、・・・音楽も人の話も、音源が一つに成る瞬間というものがあります。そこを音色のパターン認識でとらえるのですね。それで、単一音源の強さの平均値とか周波数の平均値とか周波数分布を推定してしまう。あとは、合成音を測定して、要素となる音を、パターンを予測して推定していく。パターンへの強さの分配をしていくだけですが、同じ曲、同じ言葉を話すという状況ならば、推測はかなり精確に行えるのではないでしょうか。これで音源の分離ができるでしょうと、考えるわけです。


 「知識表現とProlog/KR(中島秀之著 産業図書刊)」を読ませていただきました。知識表現として、フレームにもプロセス記述ができなくては駄目だとありました。もう20年以上もまえにそういうことが分かっていた、すごいですね。それと、知識はリスト構造がよいとか。LISPもリスト構造の知識表現しますから、これはもう人工知能の真実のことなのかなと感じ入った次第です。ただ、自然言語処理では修飾関係とか格関係を表現しなくてはなりませんので、リスト表現をもう少し拡張する必要があります。項に括弧(リスト)が空白無しで隣接記述されていたら、その項にリストを修飾することとするという規則です。これがあると自然言語がリストで表現できます。


 秋の夜長、頑張ってます。なんとなく一日一日前進している感じです。

 
 
 

おわり