表題番号:2024C-433 日付:2025/02/07
研究課題法律文書の統計的特性とリーガルテックに向けた言語処理基盤技術の考察
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 基幹理工学部 教授 田中 久美子
(連携研究者) 情報理工 博士1年生 陳号陽
研究成果概要
本課題では二つのことを行った。

第一に、法律文書が自然言語の文学、新聞やプログラムなどといった、他の人
間の文書と、どのように統計的に異なるかを、多角的に検証した。法律に関わる
文書は、主に条文、事実記載書、契約文の三種類があるが、どれにおいても、
一般の自然言語の文書(新聞やWikipedida、また、文学作品など)と比べて、
専門用語が用いられ、また、文構造が複雑である。本研究では、冪乗則の指数により複雑さを計測し、法律文書が一般の文書よりも、高い複雑度を有していることを実証した。また、この複雑度は、プログラムや数学の証明などと比べ
ると抑えられ、法律文書はちょうど中間に位置付けられることが示された。本
結果は、現在英文雑誌論文に投稿中である。

第二に、以上のような特性を持つ法律文書を情報処理するための、新しい言語
処理基盤技術を研究した。今日、LLMの躍進により、法律文書の処理が行われ
るようになっているが、ハルシネーションや、推論の欠如の問題などが指摘さ
れている。前述の法律文書の特性は、法律文書では、広範な専門情報を
利用しながらも、数学の証明に類する厳密な論が展開されることを示唆し、
これらを併せ持つ特性を実現する新しい基盤が必要である。このため、本研究では、LLMに外部
情報検索を強化するRAG(Retrieval Augmented Generation)を付与し、さらに、
法律上の推論を、プログラムとして実行する新方式を提案した。提案方式は、
LLMだけを用いたり、それにRAGを追加するだけなどのベースラインに比べ、格
段に性能が高い。本結果は、現在、国際会議論文に投稿中である。