10.2 ミッシングフィーチャマスク (MFM) の閾値の設定の仕方がわからない

Problem

MFMGeneration モジュールのパラメータをどのように設定したら良いか 分からないときに読む.

Solution

MFMGeneration には THRESHOLD というパラメータがあり,このパラメータが 音声認識の性能を左右する.閾値を0.0に設定すると,ミッシングフィーチャー 理論を使わない音声認識を行う.一方で閾値を1.0に設定すると,すべての特徴 量にマスクをかけるため,まったく特徴量を使わないで認識を行う.

適した値を求めるには,例えば0.1刻みで変化させるなどしながら実際に音声 認識を行い,実験的に求めると良い.

Discussion

MFMGeneration は次の式で表され,信頼度を THRESHOLD でしきい値処理し,0.0(信頼しない)または1.0(信頼する)の2値をとるマスク (ハードマスク)を生成する.

  $\displaystyle m(f,p) = \left\{ \begin{array}{cc} 1.0, & r(p) > THRESHOLD \nonumber \\ 0.0, & r(p) \leq THRESHOLD \nonumber \end{array} \right. $   (1)

ただし,$m(f,p)$は$f$フレームの$p$次元目の特徴量に対するマスクの値を表し, $r(p)$は$p$次元目の特徴量の信頼度を表す.

See Also

HARK ドキュメントの MFMGeneration の節