表題番号:2024C-433
日付:2025/02/07
研究課題法律文書の統計的特性とリーガルテックに向けた言語処理基盤技術の考察
研究者所属(当時) | 資格 | 氏名 | |
---|---|---|---|
(代表者) | 理工学術院 基幹理工学部 | 教授 | 田中 久美子 |
(連携研究者) | 情報理工 | 博士1年生 | 陳号陽 |
- 研究成果概要
- 本課題では二つのことを行った。第一に、法律文書が自然言語の文学、新聞やプログラムなどといった、他の人間の文書と、どのように統計的に異なるかを、多角的に検証した。法律に関わる文書は、主に条文、事実記載書、契約文の三種類があるが、どれにおいても、一般の自然言語の文書(新聞やWikipedida、また、文学作品など)と比べて、専門用語が用いられ、また、文構造が複雑である。本研究では、冪乗則の指数により複雑さを計測し、法律文書が一般の文書よりも、高い複雑度を有していることを実証した。また、この複雑度は、プログラムや数学の証明などと比べると抑えられ、法律文書はちょうど中間に位置付けられることが示された。本結果は、現在英文雑誌論文に投稿中である。第二に、以上のような特性を持つ法律文書を情報処理するための、新しい言語処理基盤技術を研究した。今日、LLMの躍進により、法律文書の処理が行われるようになっているが、ハルシネーションや、推論の欠如の問題などが指摘されている。前述の法律文書の特性は、法律文書では、広範な専門情報を利用しながらも、数学の証明に類する厳密な論が展開されることを示唆し、これらを併せ持つ特性を実現する新しい基盤が必要である。このため、本研究では、LLMに外部情報検索を強化するRAG(Retrieval Augmented Generation)を付与し、さらに、法律上の推論を、プログラムとして実行する新方式を提案した。提案方式は、LLMだけを用いたり、それにRAGを追加するだけなどのベースラインに比べ、格段に性能が高い。本結果は、現在、国際会議論文に投稿中である。