研究

近年、医学・生物学領域において、計測技術の進歩により多数のビッグデータが生み出されています。当研究室では、生命現象を理解し、予測・個別化医療に応用するための数理的基盤を確立することを目標に研究を行っています。研究テーマとしては、1.ネットワークによる制御因子予測、2.機械学習による層別化とトランスレーショナル・リサーチ、3.状態遷移モデルと未来予測、を3つの柱としています。

1.ネットワークによる制御因子予測
 当研究室ではこれまでに、出芽酵母の大規模シグナル伝達モデルの構築と、膨大なChIP-seqデータに基づく遺伝子制御ネットワークの構築を行ってきました。
 これらのネットワークに加えて、網羅的スクリーニングデータに基づいたタンパク質相互作用ネットワーク(PPIネットワーク)に、タンパク質の局在や機能をデータベースから取り入れ、機械学習を導入することで実際の細胞内プロセスに立脚したパスウェイモデルを構築することを目指しています。さらに、複雑ネットワーク解析手法を適用することで、遺伝子発現データから上流因子の影響を推定するアルゴリズムを開発していきます。このようなネットワークやアルゴリズムは生命の理解に重要であるだけでなく、オミクスデータを解析する上で重要なツールとなります。

2.機械学習による層別化とトランスレーショナル・リサーチ
 機械学習は、従来の統計的手法では検出が難しかった複雑な因子同士の交絡や、非線形な影響を抽出するのに有用であり、今後の生物学研究において必要不可欠なツールになると考えられます。しかしながら、既存の機械学習手法は、画像やWeb情報などの、膨大なサンプルがあり、欠測の少ないデータを対象としています。当研究室では、医学・生物学の不完全でノイズの多いデータに対しても適用可能な機械学習アルゴリズムの開発に取り組み、実際の臨床データに適用することで患者の層別化とそれぞれの疾患病態を特徴づけるバイオマーカーの探索を行います。
 また、ヒトで見出されたバイオマーカー候補分子やパスウェイは、リバーストランスレーションの枠組みで、疾患モデルマウスにより検証を行いますが、その際に重要になるのがヒトとマウスのデータの対応付けです。特に、トランスクリプトームデータの場合、遺伝子レベルでの比較はヒトとマウスで対応する遺伝子が存在しないことも多く、困難です。この問題を解決するために、公共レポジトリに存在する10万件以上のヒト・マウスRNA-seqデータの再解析を行い、ヒトとマウスで共通した制御構造・因子を抽出し、ヒトの疾患病態とマウスモデルを対応付けることを目指しています。

3.状態遷移モデルと未来予測
 生命現象や疾患は一定の規則・秩序に従った状態遷移過程と考えられます。当研究室では、計測時刻が散発的で不規則な医学・生物学の時系列データに、機械学習、応用数学を適用することで、状態遷移の規則を抽出し、未来予測を行うことを目指します。医学・生物学の時系列データは、①心電図やバイタルといった低次元で比較的長い時系列データ、②臨床オミクスデータを始めとする高次元で短い時系列データに大別されます。前者に関しては、状態空間モデルに基づく予測アルゴリズムの開発を進めており、データ同化手法の改良と実際の医学・生物学データへの適用を行います。また、高次元で短い時系列データに対しては、エネルギーランドスケープ分析を導入しています。本手法は、データに基づいて状態を離散的に表現し、短い時系列についてもマルコフモデルによる状態遷移モデルを構成できることから、データ同化と並ぶ重要な時系列解析手法として開発を進めていきます。

PageTop