ビッグデータから新たな科学的発見をもたらす統計手法を開発

研究

公開日：2013.07.24

ポイント

ビッグデータからの科学的発見のためには、正確な検定値(P値)の算出が必要。
超高速アルゴリズムを用いた新たな統計検定手法を開発し、発見力を大幅に改善した。
物理学、医学、化学など全ての実験科学において世界中での広い利用が期待される。

概要

JST 課題達成型基礎研究の一環として、産業技術総合研究所生命情報工学研究センターの津田宏治主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東京工業大学大学院情報理工学研究科計算工学専攻の瀬々潤准教授、理化学研究所統合生命医科学研究センターの岡田眞里子チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム(手順)を開発しました。
自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる対象が増えれば増えるほど、発見の基準を厳しくしなくてはなりません。その結果、観測対象が増えたのに、科学的発見が減るという奇妙な現象「ビッグデータのパラドックス」が起きる場合があります。特に、複合的な組み合せ因子に対して極めて保守的な検定値(P値)を出すことが多く、有意義な実験結果が不当に低く評価されることがありました。本研究グループでは、超高速アルゴリズムの技法を用いて、従来法より、格段に精度の高いP値を算出する新手法を開発しました。この手法を、乳がん細胞株の増殖・分化に関与している転写因子の研究に利用したところ、既存の遺伝子発現データから新たな組み合わせ因子を発見することに成功しました。
開発した手法を用いれば、これまで見過ごされてきた組み合わせ因子の発見が可能になります。本成果は、物理学、医学、化学など、全ての実験科学に貢献するものであり、今後世界中で広く利用されることが期待されます。
本研究成果は、米国科学雑誌「米国科学アカデミー紀要(PNAS)」のオンライン速報版で2013年7月22日(米国東部時間)の週に公開されます。

詳細はこちら ⇒ プレスリリースPDFファイル

その他の研究成果はこちら ⇒ 研究成果一覧<