表題番号:2025C-167
日付:2026/02/12
研究課題⾳環境の認識と理解のための⾰新的マイクロホンアレー基盤技術の研究
| 研究者所属(当時) | 資格 | 氏名 | |
|---|---|---|---|
| (代表者) | 理工学術院 大学院情報生産システム研究科 | 特任教授 | 牧野 昭二 |
- 研究成果概要
本研究では、雑音除去・残響抑圧・音源分離を同時に行う新しい多チャネル音声強調(Speech Enhancement: SE)手法を提案した。本手法は、拡散モデルに基づく多ストリーム音声強調用スコアベース生成モデル(multi-stream Score-based Generative Model for Speech Enhancement: ms-SGMSE)と、信号処理に基づく畳み込みビームフォーマ(Convolutional Beamformer: CBF)を組み合わせることで、高精度な音声強調を実現した。この統合手法を Diffusion model with CBF(DiffCBF)と呼ぶ。両手法の強みを活かすことで、反復的な精緻化により推定精度を向上させることができる。さらに、音源数が与えられていれば話者数に依存せずに収録信号を処理できるため、高い汎用性を有する。実験結果により、本手法は雑音・残響を含む混合音声からクリーン音声を効果的に復元し、従来の拡散モデルベース音源分離法を大きく上回る性能を示すことが確認された。さらに、本手法は、収録信号に含まれる音源数が学習データと異なる場合でも有効に動作することが確認された。