表題番号:2005B-189 日付:2006/04/08
研究課題文書検索・分類・クラスタリングに関する研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 教授 平澤 茂一
研究成果概要
 次の各項を研究目的とした.それぞれに得られた結果・成果,残された課題を記述する.
(1) 潜在的意味空間インデクシング(LSI)モデルの評価
   LSIモデルは文書ベクトルが作る空間の代数的な手法(Singular Value Decomposition)による次元圧縮モデルである.情報処理学会が提供するベンチマーク文書集合データに適用した結果,分類性能は(圧縮前の)ベクトル空間モデルより優れるものの,その改善度合いは小さく,次に述べるPLSIモデルに劣ることが判明した.ただし,ベンチマークデータは約5000文書の小規模なもので,大規模で検索システムへの適用は今後の課題である.
(2) 確率的潜在意味インデキシング(PLSI)モデルの拡張
   代数的な次元圧縮を確率的手法に置き換えたPLSIモデルに基づく分類アルゴリズム・クラスタリングアルゴリズムを提案し,その評価を行った.(1)で述べたベンチマークに適用し,文書集合の規模が大きくなるに従い性能は劣化するが,小規模な文書集合には良い性能を示すことを明らかにした.提案アルゴリズムはある条件の下にベイズ最適になっており,振る舞いをベイズ決定理論に基づいて再構築し,最適な隠れ状態数を決定することは今後の課題である.
(3) 選択型質問と記述型質問が混在するアンケートからの知識発見
   (2)で確認したPLSIモデルの良好な性能を,実データとして収集した授業改善のためのアンケート分析に用いた.担当する学部2年必修科目「コンピュータ工学」に適用した.授業モデルを示し,アンケートから得た学生の顕在的・暗黙的特性を入力と,学生の成績・満足度(これもアンケートより抽出する)を出力とするモデルの因果関係を明らかにした.残念ながら授業開始前のアンケート結果からのみで「クラス分け」などの授業運営方法を導くことは不可能であるが,講義の進め方・中間テストや演習に対する学生の考え方などの授業運営に有効な知識が得られることを示した.また,昨年春に行ったMNCのWEB科目登録のアンケート分析にも利用し,学生の要望を抽出した.
(4) 台湾における学生アンケートの実施と分析
   本学で実施したアンケート分析結果を2006年春に台湾で開催された国際セミナーと淡江大学の集中講義で発表・紹介した.これを機会に,本年度台湾の学生からもアンケートを求めることにした.日台共同で日本語と中国語の言語横断検索システムの研究をスタートさせ,アンケート分析に取り組むことになっている.