表題番号:2004B-873 日付:2005/03/25
研究課題部分隠れマルコフモデルによる自然発話音声認識
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 助手 小川 哲司
研究成果概要
 本研究では、音声認識に用いる確率モデルとして一般的に用いられている隠れマルコフモデル(Hidden Markov Model; HMM)に代わる表現能力の高い確率モデルとして、部分隠れマルコフモデル(Partly-Hidden Markov Model; PHMM)を提案している。このPHMMは、状態と出力双方が過去の出力に依存する枠組みであるが、その構造は全てのモデルカテゴリで共通なものを用いてきた。そこで本年度は,重みつき尤度比最大基準に基づき、PHMM における状態と出力間の依存構造をモデルカテゴリ毎に最適に選択することを試みた。
 尤度比最大化に基づくモデル構造選択の枠組みでは、正解カテゴリと不正解カテゴリが与える対数尤度の差を直接計算したものを目的関数として導入し、その値を最大にするようなモデル構造を選択する。ここで、尤度比を改善しても認識結果が変わりにくい、尤度比の値が大きな値を持つデータより、それが0に近い値を持つデータを対象として尤度比を改善することが重要であるため、尤度比の値が小さいときはその値をそのまま用い、尤度比の値が大きいときはある閾値で打ち切るように重み付けを行った。この重み付けされた尤度比を重みつき尤度比と呼び、ここでは重みつき尤度比を最大化するようにモデル構造の選択を行った。また本手法では、各々のカテゴリに帰属するデータに対して重みつき尤度比を最大化するのではなく、全てのカテゴリに対して取り得るモデル構造の組み合わせを考え、生成される膨大な数のモデル構造の組み合わせに対して重みつき尤度比を最大化する。そして、最大の重みつき尤度比を与える構造の組み合わせを、最適な構造と考える。しかし、このような膨大なパターンに対する全探索は現実的ではなく、遺伝的アルゴリズムを適用し、全探索おける近似解を与えることを試みた。
 学会講演音声を対象とする連続音声認識実験により提案するモデル構造選択手法の有効性を評価したところ、モデル構造を行わないPHMMの誤りを削減することが示された。