4.4.2 Source

音源定位情報を表す型であり,HARK  では,LocalizeMUSIC (出力), SourceTracker (入出力),GHDSS (入力)という音源定位から音源分離に 至る一連の流れの中で Map<int, ObjectRef> の ObjectRef が指し示す情報として用いられる.

Source 型は,次のような情報を持っている.

  1. ID : int 型.音源のID

  2. パワー: float 型.定位された方向のパワー.

  3. 座標: float 型の長さ3の配列.音源定位方向に対応する,単位球上の直交座標.

  4. 継続時間: double 型. 定位された音源が終了するまでのフレーム数,対応する音源が検出されなければ時間とともに減っていき,この値が0になった場合,その音源は消滅する.この変数は,SourceTracker でのみ使用される内部変数である.

  5. TFインデックス: int 型. 定位された方向が伝達関数ファイル中の何番目に該当するのかを表す。

Problem

MFCCExtraction や SpeechRecognitionClient などのノードの 入出力に使われているデータ型「Map $<\cdot $,$\cdot >$」について知りたいときに読む.

Solution

Map 型は,キーとそのキーに対応するデータの組からなる型である. 例えば3話者同時認識を行う場合,音声認識に用いる特徴量は話者毎に区別する必要がある.そのため, 特徴量がどの話者の何番目の発話に対応するのかを表したIDをキーとし,そのキーとデータをセットに して扱うことで話者・発話を区別する.