2.2 音環境理解をベースにしたロボット聴覚

音声に加えて音楽や環境音さらには混合音を含めた音一般を扱う必要があるという立場から，音環境理解 (Computational Auditory Scene Analysis) [9] 研究を進めてきた．音環境理解研究での重要な課題は，混合音の処理である．話者の口元に設置した接話型マイクロフォンを使用して混合音の問題を回避するのではなく，入力は混合音との立場から，混合音処理に直球で立ち向うのが音環境理解である．

音環境理解の主たる課題は，音源方向認識の音源定位 (sound source localization)，音源分離 (sound source separation)，分離音の音声認識 (automatic speech recognition) の3つである．個々の課題に対してはこれまでに多種多様な技術が研究開発されている．しかし，いずれの技術もその能力を最大限発揮するためには何らかの条件を前提としている．ロボット聴覚でこれらの技術を組合せ，能力を最大限発揮させるためには，個別技術のインタフェース，すなわち，前提条件をうまく揃えて，システム化することが不可欠である．このためには，ドべネックの桶 (リービッヒの最小律) ではないが，バランスの良い組合せを効率よく提供できるミドルウエアも重要となる．

ロボット聴覚ソフトウエア HARK は，FlowDesigner というミドルウエアの上に構築されており，8本のマイクロフォンを前提として，音環境理解の機能を提供している． HARKは，事前知識を極力減らすという原則で設計されおり，“音響処理のOpenCV”を目指したシステムである．実際，3人の料理の注文を聞き分けるロボットや口によるじゃんけんの審判ロボットなどが複数のロボットで実現されている．

一般には画像や映像が主たる環境センサとなっているものの，見え隠れや暗い場所には対応できず，必ずしも万能というわけではない．音情報を使って，画像や映像での曖昧性を解消し，逆に，音響情報での曖昧性を画像情報を使って解消する必要がある．例えば，2本のマイクロフォンによる音源定位では，音源が前か後ろかの判断は極めて難しい．

$\includegraphics[width=0.25\columnwidth ]{fig/Intro/SIG-II.eps}$ $\includegraphics[width=0.3\columnwidth ]{fig/Intro/Kim-Binaural-Nod.eps}$

Figure 2.2: SIG2 のアクティブオーディション：周辺部の音に対しては首を左右と下に動かして前後問題の曖昧性を解消する．