2.6 ロボット聴覚が切り開くキラーアプリケーション

ロボット聴覚機能が充実しても，それは，個々の信号処理モジュールの統合であり，それからどのような応用が見えてくるのかは明らかでない．実際，音声認識はIT事業の中でも非常に低い地位しか与えられていない．そのような現状から，本当に不可欠な応用を見つけるためには，まず，使えるシステムを構築し，経験を積んでいく必要があろう．

2.6.1 近接学によるインタラクション

インタラクションの基本原理として，対人距離に基づく近接学 (Proxemics) が知られている．すなわち，親密距離 (〜0.5 m)，個人距離 (0.5 m〜1.2 m)，社会距離 (1.2 m〜3.6 m)，公共距離 (3.6 m〜) に分け，各距離ごとにインタラクションの質が変っている．

近接学に対するロボット聴覚の課題は，マイクロフォンのダイナミックレンジが拡大することである．複数人インタラクションにおいて，個々の話者が同じ音量で話すとすると，遠方の話者の声は逆2乗則に従って小さくなる．従来の16ビット入力では不足し，24ビット入力で対応することが不可欠である．システム全体を24ビット化するのは，計算資源や既存ソフトウェアとの整合性から難しい．荒井らは，情報欠損の少ない16ビットへのダウンサンプリング法を提案している[12]．また，マルチチャネルA/D 装置や携帯電話用MEMSマイクロフォンなど，新しい装置の出現にも対応していく必要もある．

2.6.2 音楽ロボット

音楽を聴けば自然と体が動き，インタラクションが円滑になるので，音楽インタラクションへの期待は大きい．ロボットが音楽を扱えるようになるには，「聞き分ける」機能が不可欠である．テストベッドとして開発した音楽ロボット処理の流れを示す．

自己生成音を入力音（混合音）から抑制あるいは分離，
分離音のビート追跡からテンポ認識と次テンポ推定，
テンポに合わせて挙動（歌を歌う，動作）を実行．

ロボットは，スピーカから音楽が鳴るとすぐにテンポに合わせて足踏みを始め，音楽がなり終わると足踏みを終える．

自分の歌声を残響の影響を含めて入力混合音から分離するのために自己生成音抑制機能を使用している．ビート追跡やテンポ推定では誤りが避けられない．音楽ロボットでは，テンポ推定誤りから生ずる楽譜追跡時の迷子からいかに早く，かつ，スマートに合奏や合唱に復帰するかが重要であり，人とのインタラクションで不可欠な機能となっている．

2.6.3 視聴覚統合型SLAM

佐々木・加賀美（産総研）らは，32 チャネルマイクロフォンアレイを装着した移動ロボットを開発し，室内の音環境理解の研究開発に取り組んでいる．事前に与えられたマップを使い，いくつかのランドマークをたどりながら定位とマップ作成を同時に行う SLAM (Simultaneous Localization And Mapping) の音響版である[1]．従来のSLAMでは，画像センサ，レーザレンジセンサ，超音波センサなどが使われるものの，マイクロフォン，つまり，可聴帯域の音響信号は使用されてこなかった．佐々木らの仕事は，従来のSLAMでは扱えていなかった音響信号をSLAMに組み込む研究であり，重要な先駆的な研究である．これにより，見えないけれども音がする場合にも，SLAMあるいは音源探索が可能となり，真の情景理解 (Scene anaysis) や環境理解への道筋が開かれたことになると考えられる．