表題番号:2003A-889 日付:2005/10/14
研究課題cDNAにおける遺伝子領域の特定に関する研究
研究者所属(当時) 資格 氏名
(代表者) 理工学部 助手 清水 佳奈
研究成果概要
ポストシークエンス時代の到来と共に、ゲノム情報解析の必要性が高まっている。ゲノムの情報は冗長であり、シークエンサーで解読された情報の中のごく一部だけが生物の機能に携わっている。そのためゲノム情報を、創薬、遺伝子治療、品種改良等に役立てるには、まず最初に大量のデータの中から遺伝子領域を特定し、タンパク質の機能解析をする必要がある。
本研究では以上のような背景を踏まえ、cDNA配列からタンパク質のコーディング領域を予測することを目標とした。
cDNAからタンパク質のコーディング領域を特定する従来研究は、コドン連鎖などのコドンの使用頻度をもとに予測を行っている。そのためコドンの使用頻度に偏りがある配列に対しては、予測精度を保てない欠点がある。ゲノムの情報は例外が多く、コドンの使用頻度が偏った配列は数多く存在する。ロバストな予測を行うためには多くの生物学的知見による情報を利用する必要があるが、多くの従来研究では、隠れマルコフモデルなどの確率モデルを使った手法がとられているため、確率的に依存関係にある生物学的知見を同時に利用することが困難であった。
これに対し、本研究ではコドンの使用頻度のほかにも有用と思われる生物学的知見を数多く組み合わせて予測することのできる手法を提案した。提案した手法を実装し、ベンチマーク用データを用いて評価を行った結果、従来研究よりも良い精度を得ることができた。
また、本研究で実装したシステムはwebから実行することも可能であり、近日中に一web上で公開する予定である。
なお、本研究の成果はcDNAだけでなくDNAのexon領域予測にも応用できる。現在はDNA予測に向けてシステムの改変を行い、本研究がより広範囲に貢献できるよう、研究を進めている。