14.6 音声認識ネットワークサンプル

同時発話が録音された音声ファイルを音源分離し,音声認識し,音声認識率を評価するサンプルを紹介する. サンプルファイルはオフライン処理であるが, AudioStreamFromWave を AudioStreamFromMic に入れ替えれば, オンラインの同時発話認識にも使える. すべてのファイルは Recognition ディレクトリにある. 各ファイルの説明は表 14.20 を参照. 以下では,サンプルの実行方法を音声認識の実行,認識率の評価の順に説明していく.

Table 14.20: ファイルリスト

分類

ファイル名

説明

データ

../MultiSpeech.wav

本サンプルで使用する同時発話ファイル

JuliusMFT

julius.jconf

JuliusMFT 設定ファイル

 

AM/hmmdefs.gz

音響モデル

 

AM/allTriphones

認識可能なトライフォン

 

LM/order.*

言語モデル

HARK

Recognition.n

音源分離・定位・特徴量抽出ネットワーク

 

../config/kinect_tf.zip

伝達関数ファイル (HARK 2.1.0 以降)

 

sep_files/

分離音保存用ディレクトリ

評価

score.py

評価スクリプト

 

transcription_A.txt

方向別正解データ

 

transcription_B.txt

方向別正解データ