考察:「音声認識で思うこと」

by ご近所のきよきよ



 ふと思ったのです。音声って、周波数分布の方が周波数の相対強度よりも重要でしょうか。なんか、波形をみれば両方重要と言うことになるのですが、周波数の分布のパターンを中心に考えると雑音に強くなると思うのです。相対強度は音の組み合わせで変化して、分離が難しいですが、周波数の違いは周波数解析すれば分離が簡単です。雑音には特定の周波数分布パターンがあるでしょう。白色雑音とか、衝突する音とか、固有のパターンを持っていて、また周波数パターンは時間的に変化しない固定的なパターンを描きます。知識をもってすれば欲しい音声と分離できるでしょう。音声がホルマントを重要手がかりとして構成されているのも、周波数分布パターンが重要なキーとなっていると考えるきっかけになります。音声認識は周波数パターンを基盤にして行うべきではないかというアイデアが浮かぶゆえんです。


 

おわり