表題番号:2024C-535 日付:2025/03/31
研究課題大規模テキストデータに内在する本質的な情報の抽出
研究者所属(当時) 資格 氏名
(代表者) 社会科学総合学術院 社会科学部 准教授 須子 統太
(連携研究者) 社会科学総合学術院 教授 仲道祐樹
(連携研究者) データ科学センター 教授 野村亮
研究成果概要
本研究課題では,社会科学諸分野で扱われる大規模なテキストデータに対し,生成AIや自然言語処理技術の応用を行うとともに,そこに内在するデータ科学的な観点でみた本質的な課題を明らかにすることを目指した.具体的には,法学研究における定量分析や法律実務の支援を目的とした生成AIの応用と,アンケート分析における自然言語処理技術の応用について検討した.前者では,膨大なテキストデータとして公開されている刑事裁判例の中から刑法研究において有益な情報の抽出法の開発を行った.前年度の課題で開発したシステムについて詳細な評価を行いその内容を論文誌へ投稿した.後者については,様々な社会科学分野の研究に活用されるアンケートデータに焦点を当て,自然言語で記述されたアンケート設問とそれに対応する回答で構成されたデータセットから,設問以外の情報をいかに抽出できるかについて検討した.また,これらに加え,口語調で入力される指示から適切な指示内容を抽出する音声言語理解タスクについて,従来あまり検討されていない複数意図をもつデータに対する効果的なアルゴリズムの開発を行った.