思いつくことなど「カクテルパーティ効果」


 何かの本で、カクテルパーティ効果というのが技術的にまだ解決していないというようなことを読んだ気がします。パーティの雑踏の中で、会話ができるなんて驚異であるというのが「カクテルパーティ効果」ですね。音楽聞いていても、伴奏に合わせて歌詞が流れてきますが、なんの支障もなく歌詞を聞き分けることができます。音波としてみれば、伴奏と音声との合成波が耳に届いているだけですので、本来ならば聞き分けるなんてことはできないはずです。

 いろいろ考えたのです。フーリエ級数展開して合成波がどうなるか見てみたりして。いや、紙の上でですが。普通なら分離できませんね。なんか特徴があって、パターン認識しているとか考えないとやっていけない。

 言葉にはリズムがあります。アクセントとか。音楽ですと何拍子とか、音階とかがある。バイオリンの音色にも特徴がある。だから、そういう特徴を捉えられますと、それらの合成波からでもそれぞれを分離できそう。アクセントも音色も周波数の世界の特徴ですから、フーリエ変換しての議論になりますね。

 先ず、拍が重要です。基本周波数ですから。音声とか楽器の特性はこの拍を中心とした、さざ波みたいな変動周期成分と表現できます。ならば、白色雑音のなかに拍があれば、分離できるというものです。パーティは白色雑音に近いですから、この方針で結構音声を分離できるのではないでしょうか。

図1 周波数の時間分布(ちょっと変な図ですが)

 白色雑音でなくても、強さが変動しない成分はフィルターを通せば除去できますので、純粋に音色だけを取り出せます。その特徴を記憶していて、パターン認識していけば、音源が特定できます。たとえ、複数の音源が混ざっていても、時間的に揺れがあって、知っている音源全てについて仮定して、合成して、現在の音を再生できるかパターン比較することで、音源特定ができるのではないでしょうか。

 特に言葉と言葉でない音とは赤ちゃんでも分かるそうです。それは音声にはなにか特徴的なアクセントがあるから本能的に弁別でくるのだと思います。


ちょっと追記

上記のことは右耳と左耳に入った音に位相差がない場合です。位相差があると音源の位置が特定できるのです。簡単な三角法ですね。簡単でもないか。

実際この位相差によって、人間はステレオサウンドが聞こえるのです。右耳と左耳に入る音の強さが違うだけですと、頭の中に音源を特定して、位相差があると頭の外から聞こえて来るように感じるそうです。

この位相差によって音源を分離すると、カクテルパーティ効果を実現できます。もちろん数学的に位相差で音が分離できればの条件つきですが。これが難しい。2次元の地形画像とは違って、音は一点に全て音要素が集約していますから。時間展開の中で、位相差を発見して行く必要があるのです。人間の脳はそれを実際にやっているのですから、数学的な定式化が可能のはずです。さて、どんな美しい理論が眠っているのでしょう。


例えば、ちょっと愚考してみました。

音源波形をf1(t)とf2(t)とします。そして、左の耳の位相差をd1、d2といます。

すると、左耳の波形はFl(t)=f1(t+d1)+f2(t+d2)

右耳の波形はFr(t)=f1(t)+f2(t)です。

で、右耳の波形を位相d2ずらして左耳と差分を取ります。

差分E(t)=f1(t+d1)-f1(t+d2)=(d1-d2)f1'(t)となり、f1はこの差分を積分すれば求まります。

d1やd2は空間の注目点が決まれば(話者の視覚による同定)求まるパラメータですから、特定の音源を同定できる・・・ということです。


とにかく、色々な情報によって音源を分離することが、カクテルパーティ効果の技術となるのでしょう。


おわり



ご近所のきよきよ