表題番号:2024C-713 日付:2025/04/04
研究課題情報理論に基づく生命科学データの効率的圧縮法と安全かつ高速な分散処理ネットワーク
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 基幹理工学部 助手 島田 航志
(連携研究者) 早稲田大学 教授 松嶋敏泰
研究成果概要
本研究では、ゲノムデータをはじめとした生命科学等の大規模データに対して、データの分析と利活用がより効率的かつ安全に行えるように
1. 増え続けるデータ容量に対してどう効率的にストレージに保存するか
2. 保存だけではなく分析や送受信といった処理をどう効率的に行うか
3. 高度な個人情報を含んだデータをどう安全に処理するか
という視点で、情報理論的な安全性と効率性の両面を考慮した理論的解析を行なっている。
まず1に関して、これは情報理論における情報源符号化・データ圧縮の基本的なアプローチを踏襲し、DNA配列をはじめとした1次元の系列の情報源の全体が同じ確率モデルで表現することができないような複雑なケースにおいて、区間ごとに異なる確率モデルによってモデル化を行った。この場合、区間の変化点や区間内のモデルが未知であるため、これらを推定しながら符号化を行う場合の計算コストが指数的に増大する。このとき、符号語長の統計的最適性を失わずに計算コストを削減したアルゴリズムを実現し、電子情報通信学会の論文誌に掲載された[1]。また、このアルゴリズムのパラメータをデータからチューニングする手法について、IEEE International Symposium on Information Theory内のワークショップで発表した[5]。
2に関しては、例えばシングルセルRNAシーケンシング(scRNA-seq)では数万の各細胞における遺伝子発現量の高次元データから、似た細胞どうしの特徴の推定や分類を行っていて、その際に行うデータからの特徴量抽出に着目した。特徴量抽出および分類においてメジャーな手法である決定木について、情報理論的に確率モデルを仮定した上で統計的に最適な分類かつ、候補となる決定木モデルが指数的に増加する場合の効率的な計算アルゴリズムを考案し、発表した[3,4]
3について、プライバシーを保ったまま効率的にネットワーク上で送受信する手法については次年度も鋭意継続して研究を行っていき、1-3を包括的に推進することで、実社会で安全かつ効率的な生命科学データの利活用に向けた土台となる研究を目指している。