表題番号:2021C-512 日付:2023/09/20
研究課題音声会話システムに関する研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 基幹理工学部 教授 小林 哲則
研究成果概要
 会話システムにおいてコンテンツを扱う部分からプロトコルを扱う部分を分離して両者を疎結合構成とし,後者を対象として End-to-End 学習を適用することで,比較的少数のデータで学習が可能な会話プロトコル制御モデルについて検討している.本年度は,特にシステムの発話タイミングの精緻なモデリングについて検討した.従来の会話システムでは,発話終端の検知に基づいてシステムを動作させるが,安定した発話終端検知には時間がかかり,リズムの良い会話はできない.そこで,発話終端検知に頼ることなく,韻律パターンや発話内容からシステムが発話すべきか否かを,音声の分析フレームの更新時刻に同期して毎時刻判定することについて検討した.モデルは,LSTMをベースとするDNN(Deep Neural Networks)で構成し,利用する入力情報としては,スペクトル包絡特徴,韻律特徴,言語特徴(音声認識の結果得られるサブワード列),対話行為の推定結果を用いることについて検討した.このシステム構成によって,発話タイミングを精緻に制御することができ,円滑な会話進行に貢献すること,対話行為を利用することの効果は大きいことなどが明らかになった.