考察:「音声認識で思うこと2」
by ご近所のきよきよ
前の考察で言い漏れていたことを記してみます。音声分離技術についてです。次の図をご覧下さい。一般的に音の周波数分析ではこんな図を作るでしょう。
周波数の分布パターンはaのレベル、bのレベル、cのレベルとあり得ます。aのレベルは周波数全体に渡ったパターンです。これは白色雑音と推定されます。bのレベルは中くらいの山の部分からなります。5つくらいのピークがあります。そんな周波数分布の音と推定できます。cのレベルでは1つの山が捉えられます。この周波数一つの音と推定します。あとはこの3つの音の合成が実際の音パターンと推定するのです。
無論、推定は曖昧があります。そんな音の周波数分布パターンの知識を持っていることが前提になっていて、それで推論を評価して確信にいたるのです。
歌を歌うではないですか。すると、同じ「あ」の音でも音階によって周波数は違うはずです。周波数が違うのに同じ「あ」に聞こえる。またバイオリンは音階によって変わらず「バイオリン」です。「フルート」に聞こえるわけではありません。とするならば、楽器音とか言葉は音階により周波数変調が行われると言うことですね。周波数の特徴点パターンは不変・・・これが音声分離のキーポイントということの裏付けとなる所ではないでしょうか。
おわり