表題番号:2012B-164 日付:2013/05/03
研究課題大規模遺伝型・形質型データの解析における低頻度型検出問題の研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 准教授 井上 真郷
研究成果概要
 Fisherの正確確率検定は二つの事象間の非独立性を調べる検定法で,一定の仮定のもと,正確なp値を算出できることが利点である.しかし,サンプル数が多い場合や,各事象の起こる場合の数が多い場合は,p値の算出にかかる計算量が指数的に増加するという問題があった.また,genome-wide association study (GWAS)の枠組みでは,ある疾患の原因遺伝子を2万遺伝子,もしくは300万single nucleotide polymorphism (SNP)の中から探し出すという問題を解く必要があるが,これには一疾患対多遺伝子という多重検定を考慮しなければならず,更に難しい問題となっている.
 先行研究では,この多重検定補正を行って正確なp値の算出を行うアルゴリズムを構築したが,依然計算量の問題は残っていた.そこで本研究では,実際のp値の使われ方としては,ある閾値以下であるかどうかが重要となる点に着目し,p値が閾値以下であるかどうかのみを正確に判定するアルゴリズムの構築を試みた.集合の包除原理を用いると,一次(単体)の項はp値の上界を,二次の項は下界を,三次の項は再び上界を与えることから,一次の近似で棄却できる場合や,二次の近似で棄却できない場合,三次の近似で棄却できる場合などは,その時点で判定できることが分かった.更に,二次,三次等の高次相関の組合せ数が膨大となることから,より低次の相関情報から,計算する高次相関項を絞り込むことを考えたが,現実的なアルゴリズムの構築にまでは至らなかった.
 次に,各事象が三値以上の値を取り得る場合は,順序関係がある場合とない場合があることに着目し,順序関係がある場合にこれを利用して効率の良いアルゴリズムが構築できないか試みた.これはより基本的な問題として,順序回帰と呼ばれる問題があるため,これを研究した.こちらは,従来ある複数の閾値を組み合わせたモデルを排し,ロジスティック回帰モデルを複数組み合わせた確率モデルを構築することができた.また,全サンプルデータを解に反映させるのではなく,一部の重要なデータだけを反映させることで,より汎用的な解を得ることを目的とする疎なBayes学習アルゴリズムを構築できた.また,この研究を手伝った学生(長島 主尚)を2013年1月8日~3月27日の期間,英国King’s College LondonのACC Coolen教授の元へ派遣し,研究を進めた.
 次に,SNPデータはhaplotype推定されていた方がより検定の検出力が向上するため,haplotype推定問題にも取り組んだ.こちらも,先の高次相関問題と共通の側面を持つ,モーメント母関数を用いたアルゴリズムの構築を試みた.結果,高次相関まで全て計算できるような規模の小さい問題については,現実的なアルゴリズムの構築ができた.また,推定精度は従来のEMアルゴリズムによる方法に劣るものの,計算量をサンプル数に対して比例でしか増加しない高速アルゴリズムを構築することができた.また,この研究の学会発表を行った学生(小野 司寿加)が IEEE Computational Intelligence Society Japan Chapter より Young Researcher Award を受賞することができた.