表題番号:2011B-104 日付:2012/04/16
研究課題音声会話システムの総合的研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 教授 小林 哲則
(連携研究者) 高等研究所 助教 藤江 真也
(連携研究者) 高等研究所 助教 小川 哲司
(連携研究者) 理工学術院 助手 松山 洋一
(連携研究者) GCS機構 次席研究員 岩田 和彦
研究成果概要
ロボットを用いた会話コミュニケーションの実現に向けて,以下のテーマの研究を行った。

(1)音声会話プロトコルの解明
 音声会話プロトコルのモデル化を,会話の観察に基づて行った。特に多人数で会話を行うとき,会話相手の選択,発話の番の制御などが,どのような身体表現を伴って行われるかを整理した。

(2) 魅力ある会話の実現
 会話が魅力的であるために,ロボットの発話はどうあるべきかについて整理した。特に相手が話しやすくすることに配慮しながら,まず,単に聞かれたことに答えるだけでなく,質問に答えながら関連した新たな話題を含めるしくみを用意した。これによって利用者は発話をつなぎやすくった。

(3)要素技術の開発
 3-1)視覚情報処理: 会話参加者の姿勢は,その会話参加者の会話への参加の意思等を特定するのに重要である。また,視線が直接の通信相手を表すこと,表情が情報伝達の成功/不成功や,相手の興味の有無を表現することなどは,既に良く知られている。この「姿勢と表情」の自動認識システムを開発した。姿勢認識・表情推定に必要となる画像特徴点の抽出問題に対し,ロボットに装着したカメラだけでなく,部屋の天井に設置したカメラでも情報を収集した上でそれらを統合利用するシステムを実現した。

 3-2)聴覚情報処理: 多人数の音声会話をハンズフリーで行うとき生じる様々な問題を解決した。主に目的話者の背後から到来する指向性雑音の除去と,残響の問題を,提案する6マイクの帯状ビームフォーマ[4]で処理した。また,会話では,一息で多くの文を話したり,ひとつの文をとぎれとぎれに話したりするが,この発話単位と意味の纏まりの異なりが,会話音声認識の問題を難しくしている。ここでは,話し方(間のおき方)の違いは,一種のプロトコルにかかわる情報を発話に含めた結果と解釈し,それが引き起こす特有の韻律現象を,デコードに積極利用する方法を検討した。

(4)統合システム
 以上(1)-(4)を統合し,複数人を対象に,ゲームをしながら会話を楽しむことができるシステムを実現した。通所介護施設の高齢者との会話実験を行い,好評をいただいた。