表題番号:2025R-023 日付:2026/04/05
研究課題ユーザの意図を直接かつ直感的な形で反映可能な状態監視システムの構築法に関する研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 基幹理工学部 教授 小川 哲司
研究成果概要
 本研究では、重症心身障害児(以下、重症児)の顔画像から得られる情報に基づく感情状態推定を対象として、視覚言語モデル(VLM)を活用した個別適応型の画像認識フレームワークを提案した。重症児が表出する感情状態やその表出方法には大きな個人差があり、さらに発達や医学的要因により経時的にも変化する。このため、大規模データに基づいて構築された汎用的な感情状態推定モデルをそのまま活用することは現実的ではない。一方、従来の個別適応型パターン認識手法には、養育者や専門家による高コストなアノテーション、モデリングにおける人工知能(AI)技術者への依存、ならびに判断過程の不透明性といった課題があった。
 これに対し本研究では、モデルの再学習を行うことなく、VLMが生成する言語記述を介してパターン認識を実現するとともに、対象者ごとの個別最適化を行う手法を開発した。例えば、快状態の検知においては、入力画像が快状態を表す言語記述とどの程度整合するかをVLMに照合させることで推定を行う。具体的には、まず少数の顔画像から、顔面筋の動きのパターンであるアクションユニット(AU)の強度と自由記述を組み合わせた特徴記述を生成し、推論誤差に基づいて反復的に修正する「VLM記述修正法」を提案した。これにより、専門家の知識や勾配計算を伴う再学習を必要とせずに個別適応を実現するとともに、自然言語記述を通じた高い説明可能性を確保した。さらに、初期記述への依存を軽減するため、複数の特徴記述を生成・統合する「VLM複数記述統合法」を提案し、認識の頑健性を向上させた。
 評価実験の結果、提案法は重症児の快・不快推定において有効性を示し、専門家の知識を要する既存手法を上回る性能を達成した。本研究は、少数の画像と自然言語のみを用いて個別最適化を可能にする新たなパターン認識の枠組みを示した点に意義があり、説明可能性が重視される実社会の多様な画像認識課題への展開が期待される。