表題番号:2013B-114 日付:2014/04/21
研究課題宗教文化コンピューティングによる社会的包摂空間構成法の研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 教授 菱山 玲子
研究成果概要
 仏教文化の中軸的な情報空間を構成する要素として,経典などの古典テキストで表現されたコンテンツ情報はその中軸をなすものと位置付けることができる.これらの経典テキストは近年,大規模データベースの構築を通じて各国で個々の情報空間を形成しつつあるが,これらを関連付けて分析するなどの目的で,仏教文化にまつわる情報の利活用に向けてコンピューティング技術を適用する分析方法論はまだ発展途上にある.
 また,分散する仏教経典等を扱うテキストデータベースを横断的に利用することで可能となる古典テキストの異写本比較は,定性的分析による研究アプローチが中心となっており,近年デジタル化が進む仏教経典情報に関するデータベースの利用価値を活かした研究手法の適用は未開拓な状態にある.これに対し,近年,これらの仏教経典の異写本比較に定量的分析が可能な確率統計的自然言語処理の手法を適用する試みが行われている.その対象は英語文献や漢字文献など対象文献の言語に依存せず,一般的な文献比較の手法として有効性が認められつつある.
 これらの具体的適用としては,複数のN-gramの共起頻度の集計結果を同時比較して異写本間の関係性を推定する手法,伝承過程を示す系統樹をクラスター分析等の統計分析から獲得する方法など,多様な手法が試されており,これらの手法は文献が記述された言語を同一とする異写本比較には有効に適用できることがわかっている.しかし,異写本は地理的・歴史的な変遷を伴いながら異なる地域・時代へと横断するかたちで伝承されているケースが少なくなく,この場合,異写本間で翻訳を伴う伝承がなされている.このようなケースでは,記述されている言語や語彙が異なり,従来の方法で分析を行うことができない.つまり,宗教的な情報空間では,利用されている言語文化が異なることが前提となっている.この問題に対し,本研究では,異写本の伝承行為の特性に注目し,言語に依存せずより精細な異写本比較を行うための手法を検討すると共に,これを評価することとした.
 本研究で注目する異写本の伝承行為とは,次の2点である.1点めは,異写本が地理的な伝承関係を伴う場合で,翻訳行為が介在する点である.2点めは,伝承が人手により写し取る行為として行われ,この行為には意図された異なる解釈にもとづく変更のみならず,意図しない転写ミスが加わる可能性がある点である.この2点の伝承過程に伴う特性を考慮し,本研究では以下の分析方法を提案した.
 まず,前者の特性に対しては,異写本が執筆された言語にまつわる対訳辞書を整備し,これを言語資源として利用し,異写本比較を行い,同時に,共通的な文字及び語句単位で多言語マッピング辞書を整備した.こうして整備した多言語マッピング辞書を言語グリッド基盤の言語資源(ローカル辞書)として配置し,これらの複数の言語資源を言語グリッド上でサービス連携させ,その類似度分析から伝承過程に沿った異写本関係を把握した.
 一方,後者の特性に対しては,文字及び語句単位の2種のマッピング辞書を用意したる.これらの辞書をベースに行う異写本の類似性分析において,Jaro-Winkler distance algorithmを用いた.このアルゴリズムは,文字列同士の近さを数値化するが,ある範囲の文字が交換可能かどうかを精査する過程で文字のタイプミスの検出に効果を発揮する点で,異写本に含まれる転写誤りに類する特徴を検出するのに適している.古典テキストはもとも人手により写本されているため,この検出機能を中国語間の転写関係の把握に適用した.
 本研究では,先行研究でも評価に利用されてきた「般若心経」の異写本群を対象に提案手法による評価を行った.対象は代表的な6本の異写本とし,小本版として玄奘 (Xuanzang)訳及び鳩摩羅什(Kumārajīva) 訳の2本,大本版として法月 (Fa-yueh)訳,利言 (Li-yen)訳,智慧輪 (Prajñācakra)訳,法成 (Dharmasiddhi)訳の4本を用いた.比較の結果,法月訳と利言訳の距離が近く,類似性が高いことがわかった.前者は741 CEに東インドで写本され,後者は790CEにカシミール地方で写本されており,他の写本間と相対比較して年代が近接しており,かつ,地理的にも接近している.一方,知慧輪訳と法成訳, 法月訳と法成訳, 利言訳と法成訳の類似性は低い.法成は856 CEに敦煌で写本されており,地理的に東インド,中央アジア,カシミール地方から遠く,この結果はこうした距離感を反映していることがわかる.
小本ベースでの比較結果をみると,特に,鳩摩羅什訳と法月訳をオリジナルで比較した場合は距離が遠い.これは法月訳のオリジナルが大本であり,鳩摩羅什訳に含まれない注釈が多く記載されていることによる.法月訳から対応する小本部分のみを採取し比較した場合は類似度が高い.一方,玄奘訳と鳩摩羅什訳は共に小本であり距離も近い.このことから,玄奘訳・鳩摩羅什訳・法月訳は類似性が高いといえる.これは,最も古い年代(400CE頃)に作成された鳩摩羅什訳と,玄奘訳と法月訳の歴史的年代が近く,かつ,いずれも東インド系とされることや,先行文献で得られたクラスター分析結果とも一致する結果である.
更に,同一の文字(漢字)としてみなすことができるもので,異写本間で異なる文字が使われている例を抽出し,これらを追加的にマッピング辞書として整備し同一文字とみなす適用を加えた場合,玄奘と鳩摩羅什の距離はより近くなり,更に語句ベースのマッピングと組み合せて適用することにより玄奘訳と鳩摩羅什訳の距離は更に接近した.
 以上より,多言語の言語資源を利用した異写本比較手法は,マッピング辞書の組み合わせによりその類似性を適切に把握することができることがわかった.今後,更に他の異写本に適用し,その性能を評価したい.