表題番号:2008B-198 日付:2009/03/26
研究課題ベイズ決定法に基づく情報クラスタリング・分類に関する研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 教授 平澤 茂一
(連携研究者) 理工学術院 准教授 後藤 正幸
研究成果概要
 情報検索システムの数学的モデルを用いて,多くの情報クラスタリングや情報分類手法が研究されている.本研究では,主として文書のクラスタリングと分類問題を対象に,最適なアルゴリズムの構築を目指した.
 数年前から開始した学生アンケート分析において,学生のクラス分けに用いる手法としてProbabilistic Latent Semantic Indexing (PLSI)モデルを利用した方式を提案し,実問題に適用してきた.提案方式の性能は,従来のベクトル空間モデルやLSIモデルなどに比べ優れたものであり,有効な分析結果を導いてきた.しかし,従来方式に対し比較的良好な性能を実現できたものの,学生アンケートから得られる文書数は学生数に等しく,したがって30-150程度の比較的小規模の文書集合で特に性能の良いクラスタリング・分類方式が必要である.
 そこで,学習文書数が小さな場合でも良い性能が期待できるベイズ決定理論を用いたアルゴリズムに着目し,その構築を図った.主成分分析に基づく単語文書行列の次元を圧縮することにより単語の共起を考慮しつつ行列のスパースネスによる雑音を除去し,圧縮次元数の混合分布を用いた新しいアルゴリズムを提案した.これは従来の圧縮しない場合と圧縮次元を固定とする場合を含み,自動的に最適な次元数を求める機構を含んでいる.しかし,残念ながら学習文書数の小さな領域では理論的に最適性を示すことは難しく,実験による比較に止まっている.