表題番号:2013B-156 日付:2014/04/10
研究課題大規模遺伝型・形質型データの解析における低頻度型検出問題の研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 教授 井上 真郷
研究成果概要
 本研究では,集団中低頻度である遺伝型・形質型において,特定の疾患や治療との因果関係を確認するランダム化比較試験をどのように構成すれば治験人数等のコストの最小化を図れるかを研究した.結果として,1)既存のblocking等の均等割付法が正しくランダム比較試験を構成していないこと(因果関係を過剰に検出することがある),2)ランダム化比較試験の割付乱数系列を工夫することで,比較試験の最後で行われる統計的検定(カイ二乗検定,Fisherの正確確率検定,G検定等の独立性の検定)の検出力を改善することができることが分かった.
 ランダム化比較試験は,二つの事項の因果関係を統計的に証明する手法であり,通常,原因と思われる事項をランダムかつ強制的に割り付け,結果と思われる事項との間に統計的に優位な相関関係が見られる場合に,因果関係ありと判断するものである.ランダム化比較試験の利点は,因果関係によらず相関関係を生み出す如何なる事項(例えば,共通の原因など)が存在しようとも,その影響を確率的に排除できる点にあり,科学的な因果関係の証明に広く用いられている.しかしながら,サンプル数が少数の場合,割付が過度に偏る可能性があり,このような場合,検出力の低下が起こり,真実として因果関係が存在するにもかかわらずそれを検出できないことがあり,問題となっている.
 既存手法では,blocking等,強制的にほぼ同数を割り付ける簡易な手法が存在するが,このような均等割付法を採用した場合,因果関係によらず相関関係を生み出す事項が存在すると,この影響を排除しきれず,結果のp値が誤って有意に出てしまうことがある.更に,このような過誤を修正する統計的手法は一般に知られておらず,誤ったp値がランダム化比較試験の結果として論文等で報告されているケースが少なからずあるのではないかと思われる.
 本研究では,G検定においてこの過誤を過小評価せずに扱い,更に,検出力を最大にするような割付乱数の確率分布を求める手法を考案した.この手法は具体的には,G検定の統計量は二つの事項の相互情報量で与えられ,相互情報量の上限は結果が未知の場合は割付乱数のエントロピーで与えられるため,これを最大化するような最適な割付分布を求めるものである.また,ランダム化比較試験は,サンプルを性別等で分類した上で,各分類項目において検定を行うこともあるため,このような場合にも対応できるよう重みづけを行うオプションも考案した.本手法は,現在行われているランダム化比較試験において用いられており,約一年後に結果を纏める予定である.
 これ以外に,関連する統計的推論手法についても研究を進めた.