4.4.2 Source

音源定位情報を表す型であり,HARK  では,LocalizeMUSIC (出力), SourceTracker (入出力),GHDSS (入力)という音源定位から音源分離に 至る一連の流れの中で Map<int, ObjectRef> の ObjectRef が指し示す情報として用いられる.

Source 型は,次のような情報を持っている.

  1. ID : int 型.音源のID

  2. パワー: float 型.定位された方向のパワー.

  3. 座標: float 型の長さ3の配列.音源定位方向に対応する,単位球上の直交座標.

  4. 継続時間: double 型. 定位された音源が終了するまでのフレーム数,対応する音源が検出されなければ時間とともに減っていき,この値が0になった場合,その音源は消滅する.この変数は,SourceTracker でのみ使用される内部変数である.

Problem

MFCCExtraction や SpeechRecognitionClient などのノードの 入出力に使われているデータ型「Map $<\cdot $,$\cdot >$」について知りたいときに読む.

Solution

Map 型は,キーとそのキーに対応するデータの組からなる型である. 例えば3話者同時認識を行う場合,音声認識に用いる特徴量は話者毎に区別する必要がある.そのため, 特徴量がどの話者の何番目の発話に対応するのかを表したIDをキーとし,そのキーとデータをセットに して扱うことで話者・発話を区別する.