表題番号:2025Q-029 日付:2026/03/27
研究課題データの低品質性を考慮したデータ解析手法の開発と体系化
研究者所属(当時) 資格 氏名
(代表者) 社会科学総合学術院 社会科学部 准教授 須子 統太
研究成果概要
本研究課題では,前課題(2021〜2024年度科研費)の成果を発展させ,低品質データからの知識抽出に関する統計的決定理論に基づく手法の拡張と体系化を目指して研究を進めた.
具体的には,まずバイアス補正・分布推定の観点から,自己選択バイアスを伴う調査データに対し統計的決定理論に基づく分布推定手法の研究を行い,前課題で開発した選択バイアス補正の枠組みをより実践的な調査場面へ拡張した.次に,データの劣化・変質への対応として,コンセプトドリフト下におけるベイズ予測手法を統計的決定理論の枠組みで定式化し,時間的に変動するデータ分布に対する理論的に最適な予測アルゴリズムの構築に取り組んだ.さらに,ラベル情報の不完全性への対処として,ノイズを含まないソフトラベルからの学習法およびラベルの階層構造を考慮した分類法について統計的決定理論に基づく検討を行い,分類問題におけるデータ品質の多様な劣化形態に対する統一的なアプローチを探究した.加えて,基盤モデルにおけるレート・損失領域の導出にも取り組み,大規模モデルの情報理論的な性能限界についても理論的知見を得た.
以上の成果は国内学会において計5件の発表として公表した.本年度の研究を通じて,統計的決定理論に基づくアプローチがバイアス補正のみならず,ドリフト,ラベルノイズ,階層的分類など多様なデータ品質問題に対して有効な統一的枠組みを提供しうることを示した.