HARK Document Version 3.4.0. (Revision: 9509) : MFMGeneration

6.5.3 MFMGeneration

6.5.3.1 ノードの概要

本ノードは，ミッシングフィーチャー理論に基く音声認識のためのミッシングフィーチャーマスク (Missing-Feature-Mask:MFM) を生成する．

6.5.3.2 必要なファイル

無し．

6.5.3.3 使用方法

どんなときに使うのか

ミッシングフィーチャー理論に基く音声認識するために使用する． MFMGeneration は，PostFilter と GHDSS の出力からミッシングフィーチャーマスクを生成する．そのため PostFilter と GHDSS の利用が前提条件である．

典型的な接続例

$\includegraphics[width=120mm]{fig/modules/MFMGeneration}$

Figure 6.101: MFMGeneration の接続例

6.5.3.4 ノードの入出力とプロパティ

Table 6.87: MFMGeneration のパラメータ表

パラメータ名	型	デフォルト値	単位	説明
FBANK_COUNT	`int`	13		音響特徴量の次元数
THRESHOLD	`float`	0.2		0.0 から 1.0 の間の連続値を 0.0 (信頼しない) または 1.0 (信頼する) に量子化するためのしきい値

入力

FBANK: : Map<int, ObjectRef> 型．音源 ID と PostFilter の出力から求めたメルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア．
FBANK_SS: : Map<int, ObjectRef> 型．音源 ID と GHDSS の出力から求めたメルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア．
FBANK_BN: : Map<int, ObjectRef> 型．音源 ID と BGNEstimator の出力から求めたメルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア．

出力

OUTPUT: : Map<int, ObjectRef> 型．音源 ID とミッシングフィーチャーマスクベクトルから構成されるベクトルの Vector<float> 型のデータのペア．ベクトルの要素は 0.0 (信頼しない) または 1.0 (信頼する) である．出力ベクトルは，2*FBANK_COUNT 次元ベクトルで， FBANK_COUNT 以上の次元要素は，全て 0 である．動的特徴量用のミッシングフィーチャーマスクのプレースホルダである．

パラメータ

FBANK_COUNT: : int 型である．音響特徴量の次元数である．
THRESHOLD: : float 型である．ノード内部で計算する 0.0(信頼しない) から 1.0(信頼する)までの信頼度を量子化するためのしきい値である．しきい値に 0.0 を設定すると，すべての信頼度がしきい値以上になり，すべてのマスク値が 1.0 になる．このときの処理は，通常の音声認識処理と等価になる．

6.5.3.5 ノードの詳細

ミッシングフィーチャー理論に基く音声認識のためのミッシングフィーチャーマスクを生成する．

信頼度 $r(p)$ をしきい値 THRESHOLD でしきい値処理し，マスク値を 0.0 (信頼しない) また 1.0 (信頼する) に量子化する．信頼度は，PostFilter , GHDSS , BGNEstimator の出力から求めたメルフィルタバンクの出力エネルギー $f(p),$ $b(p),$ $g(p),$ から求める．このときフレーム番号 $f$ のマスクベクトルは，

$\displaystyle \boldsymbol {m}(f) $	$\displaystyle = $	$\displaystyle [ m(f,0),m(f,1), \dots ,m(f,P-1)]^ T $	(160)
$\displaystyle m(f,p) $	$\displaystyle = $	$\displaystyle \left\{ \begin{array}{ll} 1.0, & r(p) > {THRESHOLD} \\ 0.0, & r(p) \leq {THRESHOLD} \\ \end{array} \right. , $	(161)
$\displaystyle r(p) $	$\displaystyle = $	$\displaystyle \min ( 1.0, (f(p) + 1.4 * b(p))/(fg(p) + 1.0)), $	(162)

である．ただし，$P$ は，入力特徴ベクトルの次元数で，FBANK_COUNT で指定する正の整数である．実際に出力するベクトルの次元数は， 2*FBANK_COUNT 次のベクトルである．FBANK_COUNT 以上の次元要素は， 0 で埋められる．これは，動的特徴量マスク値を入れるためのプレースホルダである．図 6.102 に出力ベクトル列の模式図を示す．

$\includegraphics[width=120mm]{fig/modules/MFMGeneration.eps}$

Figure 6.102: MFMGeneration の出力ベクトル列