6.5.3 MFMGeneration

6.5.3.1 ノードの概要

本ノードは,ミッシングフィーチャー理論に基く音声認識のための ミッシングフィーチャーマスク (Missing-Feature-Mask:MFM) を生成する.

6.5.3.2 必要なファイル

無し.

6.5.3.3 使用方法

どんなときに使うのか

ミッシングフィーチャー理論に基く音声認識するために使用する. MFMGeneration は,PostFilter と GHDSS の出力からミッシングフィーチャー マスクを生成する.そのため PostFilter と GHDSS の利用が前提条件である.

典型的な接続例

\includegraphics[width=120mm]{fig/modules/MFMGeneration}
Figure 6.101: MFMGeneration の接続例

6.5.3.4 ノードの入出力とプロパティ

Table 6.87: MFMGeneration のパラメータ表

パラメータ名

デフォルト値

単位

説明

FBANK_COUNT

int 

13

 

音響特徴量の次元数

THRESHOLD

float 

0.2

 

0.0 から 1.0 の間の連続値を 0.0 (信頼しない) または 1.0 (信頼する) に量子化するためのしきい値

入力

FBANK

: Map<int, ObjectRef> 型.音源 ID と PostFilter の出力から求めた メルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア.

FBANK_SS

: Map<int, ObjectRef> 型.音源 ID と GHDSS の出力から求めた メルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア.

FBANK_BN

: Map<int, ObjectRef> 型.音源 ID と BGNEstimator の出力から求めた メルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア.

出力

OUTPUT

: Map<int, ObjectRef> 型.音源 ID と ミッシングフィーチャーマスクベクトルから 構成されるベクトルの Vector<float> 型のデータのペア.ベクトルの要素は 0.0 (信頼しない) または 1.0 (信頼する) である.出力ベクトルは,2*FBANK_COUNT 次元ベクトルで, FBANK_COUNT 以上の次元要素は,全て 0 である.動的特徴量用のミッシングフィーチャーマスクのプレースホルダ である.

パラメータ

FBANK_COUNT

: int 型である.音響特徴量の次元数である.

THRESHOLD

: float 型である.ノード内部で計算する 0.0(信頼しない) から 1.0(信頼する)までの信頼度を量子化するためのしきい値である.しきい値に 0.0 を設定すると,すべての信頼度がしきい値以上になり,すべてのマスク値が 1.0 になる.このときの処理は,通常の音声認識処理と等価になる.

6.5.3.5 ノードの詳細

ミッシングフィーチャー理論に基く音声認識のためのミッシングフィーチャーマスクを生成する.

信頼度 $r(p)$ をしきい値 THRESHOLD でしきい値処理し,マスク値を 0.0 (信頼しない) また 1.0 (信頼する) に量子化する.信頼度は,PostFilter , GHDSS , BGNEstimator の出力から求めたメルフィルタバンクの出力エネルギー $f(p),$ $b(p),$ $g(p),$ から求める.このときフレーム番号 $f$ のマスクベク トルは,

  $\displaystyle \boldsymbol {m}(f) $ $\displaystyle = $ $\displaystyle [ m(f,0),m(f,1), \dots ,m(f,P-1)]^ T $   (160)
  $\displaystyle m(f,p) $ $\displaystyle = $ $\displaystyle \left\{ \begin{array}{ll} 1.0, & r(p) > {THRESHOLD} \\ 0.0, & r(p) \leq {THRESHOLD} \\ \end{array} \right. , $   (161)
  $\displaystyle r(p) $ $\displaystyle = $ $\displaystyle \min ( 1.0, (f(p) + 1.4 * b(p))/(fg(p) + 1.0)), $   (162)

である.ただし,$P$ は,入力特徴ベクトルの次元数で,FBANK_COUNT で指定する正の整数である.実際に出力するベクトルの次元数は, 2*FBANK_COUNT 次のベクトルである.FBANK_COUNT 以上の次元要素は, 0 で埋められる.これは,動的特徴量マスク値を入れるためのプレースホルダである.図 6.102 に出力ベクトル列の模式図を示す.

\includegraphics[width=120mm]{fig/modules/MFMGeneration.eps}
Figure 6.102: MFMGeneration の出力ベクトル列