特定課題報告書印刷(Print out of Special Research Projects)

表題番号：2025C-717 日付：2026/04/06

研究課題高品質音声対話データ収集のための音声収録・雑音抑圧方式の体系的検討

	研究者所属（当時）	資格	氏名
（代表者）	理工学術院基幹理工学部	教授	小川　哲司

研究成果概要: 　本研究では、意味のある自然な応答が可能な高性能音声対話モデルの構築に向けて、雑音の少ない自然対話音声を取得する方法について検討した。音声対話モデルの深層学習には、人同士の自然な対話コーパスが不可欠であり、その収集においては、残響、他話者音声、背景雑音の影響を抑え、かつ目的話者の音声を歪ませることなく取得することが重要である。しかし、対話参加者がそれぞれ近接マイクを装着して対面対話を収録する場合であっても、本人音声を明瞭に取得できる一方で、他話者の発話や周囲雑音の混入は避けられない。
　そこで本研究では、このような雑音を含む対話音源から目的話者音声を抽出するため、信号処理ベースおよび深層学習ベースの音源分離手法を比較・検討した。具体的には、信号処理ベースの手法として独立ベクトル解析（IVA）を用い、深層学習ベースの手法としてMossFormer2のような学習済みモデルを用いたモノラル音源分離手法を適用した。さらに、音源分離後に深層学習ベースの背景雑音除去処理（FRCRNやMossFormerGAN）を組み合わせ、よりクリーンな音源を得るために有効な構成を調査した。
　実験の結果、肩掛けマイクロホンで収録した音声に対しては、学習済みモデルと入力音声とのドメインギャップは分離性能に大きな影響を与えず、深層学習ベースのモノラル音源分離手法が最も有効であることを確認した。一方、IVAは分離音声に大きな歪みを生じさせにくいという利点を有するものの、背景雑音が残留しやすい傾向が見られた。ただし、後処理として背景雑音除去を適用することで、一定の音声品質向上が得られることも明らかとなった。以上より、本研究は、高品質な対話コーパス収集基盤の構築に資する知見を示した。