情報・システム研究機構シンポジウム2012

生命科学のビッグデータ革命ー仮想から現実へー

日時: 11/9

会場: 一橋講堂,学術総合センタービル


基調講演: 

Removing unwanted variation from high-throughput omic data

by Pr. T. Speed, The university of California, Walter and Eliza Hall Institute of Medical Research

``Big data causes big problems'' というスライドからスタート.ご講演の内容は,Batch effectに関するもの.Batch effectとは,実験環境 (機器や観測者など) の違いで生じるデータ変動 (variation) のことで,データを統合して解析を進める際には,このBatch effectが悪さをするという話をされていた.例えば,マイクロアレイデータ一つを取ってみても,遺伝子発現を測定する方法が異なる機械はいくつも存在しており,それぞれで得られたデータは,固有のBatch effect を持ってしまう.生命科学における Big data は,こうしたさまざまな異なる条件で得られたデータを統合して得られるため,このデータ変動をいかに予測し対処するかが重要になるということらしい.ちなみにSpeed先生はもともとは統計をご専門にされている先生らしい.


大規模データ生産を基盤とするゲノミクスの最先端

by 藤山先生,NII/NIG

生命科学における「ビッグデータ」についての背景と日本 (遺伝研) の状況について総括されていた.望遠鏡や顕微鏡など科学における歴史的な技術革新は,データの「分解能」を向上させているという共通点がある.分解能があがることでデータの総量は必然的に増えるが,生命科学における「ビッグデータ」もそういう節があると解説されていた.まず科学におけるビッグデータとして,歴史が深いのは宇宙観測の分野で,例えば,すばる望遠鏡におけるデータ量は,55.1GB/日で,1年にするとペタバイト級のデータ量になる.生命科学においては,2003年にヒトゲノムプロジェクトが終了 (Science 300, 2003) し,2007年より,第二次ゲノム革命がはじまっているとのこと.ご講演では,DDBJ Sequence Read Archive データベースにおけるシーケンサーのデータ出力量の推移 (Science 2011) を参照しながら,日本におけるプレゼンスについてご説明されていた .ちなみに遺伝研が生産しているデータ量は35テラ/年で次世代シーケンシングは10台程度保持しているとのことである.またSINET経由でアップデートするのは回線が十分でないため,データは宅急便で送られるそうである.


ゲノムデータから読み解く実験用マウス系統の起源

by 城石先生,NIG

実験用マウスC57BL/6の起源を遺伝子配列から作成した系統図を解析したというお話.ご講演の中でマウスにまつわる「ある意外な事実」がひも解かれる.まるでそれは「ホメロスの叙事詩において数奇な人生・旅をしたオディセイの物語のようである」 by 城石先生.ちなみに風の谷の「ナウシカ」は,この叙事詩が由来 (オディセイを助けた姫がナウシカという) であることが本講演でわかった.さて実は,世界で最もよく使われている実験用マウスC57BL/7のオリジンは日本のペット用マウスである.そもそもマウスは肥沃な三日月地帯にうまれ,そこから西と東に分かれていった.にもかかわらず,なぜ日本のマウスが世界の実験用マウスの起源となったのか? この疑問に対して城石先生のグループは,三島のマウス (MSM;78年に三島市内の民家の軒下からつかまえた3匹が起源) とデンマークのペットショップで購入したヨーロッパのマウスJF1,およびC57BL/7の遺伝子配列から系統図を構成してみたところ (マルコフ連鎖モンテカルロ法を用いて),MSM => JF1 => C57BK という派生になっている事がわかった.ではなぜ日本のマウスが派生もとになっているのか,さらに調査してみたところ,100年前に,日本のマウスを使った実験がヨーロッパで行なわれていたことが判明した.すなわち,江戸末期におそらく出島から日本のマウスがヨーロッパに渡っていたらしく,さらにヨーロッパからアメリカ大陸に渡り,アメリカの地で実験用マウスとしての地位を確立し,最終的に日本に「実験用マウス」として戻ってきたのだろうと先生は推測されていた.日本のマウスはだいたい10%程度の遺伝子の影響を実験用マウスに与えているらしく,余談だが,ある学会でこの話をすると,日本の生命科学者より日本マウスの方が (実験において) 多く貢献している,と冗談を言われたそうである.また100年もの間,西洋マウスとコンタミネーションもせず,ずっと西洋人が日本マウスを飼い続けていたことも驚きだそうである.


メタゲノミクスの現状と未来

by 黒川先生, 東工大

バクテリアの群衆まるごとゲノム解析を行なうと,面白いことがわかるというお話.バクテリアは体内のいたるところにおり,それらは体内環境の回復・維持に貢献していることが知られている.体内だけではなく,この地球のいたるところにもバクテリアは存在しており,体内のものと同様に自然環境の回復・維持に貢献していることが予想されている.しかし,自然環境中のバクテリアは培養が困難で,実際のところ何をやっているのかわかっていないというのが現状である.黒川先生はこの現状に対して,バクテリアの「群衆」をまるごとゲノム解析をすることで,その中で発生している生物層のダイナミクスを解析するメタゲノムの研究をやられている.たとえば腸内のバクテリアの状態は,うんちから腸内バクテリアのゲノム解析をすることで,実は,人種にも家族によらないいくつかのタイプに分類することがわかっている.これはblood type ならぬ enterotype と呼ばれているらしい.また,公園でご飯粒をおとしたあとでの土壌内のバクテリアの遺伝子のダイナミクスをみてみると,実は時系列上である遺伝子が増えたり減ったりする現象が確認された.これは「環境に応じて自殺する遺伝子が存在する」という不思議の現象であり,そのメカニズムはまだよくわかっていないらしい.またご講演では,このような解析技術の応用例も示されていた.例えば唾液のゲノム解析装置 (解析はクラウド上で行なう) を家庭内に配置することで,将来は,口内バクテリアの状況を把握し,その口内状況に適切な歯磨き粉を提供できるようになる!,かもしれないとのことである.ちなみに,メタゲノムでは,ゲノムのデータだけではなく環境のデータも解析の対象になるらしく,環境データを含めたメタゲノムデータベースを構築することがこれからの課題だそうである.c.f. メタゲノム検索エンジン microbe を目下作成中.


ますます多様化・大規模化する生命情報に求められる情報技術とは?
by 高木先生,東大

1. ビッグデータとは何を意味するのか?
2. 生命情報は果たして「ビッグデータ」なのか?
3.  新型シーケンサー (NGS) = ビッグデータとは違う視点の提供

という3点について主にご講演された.以下,それぞれについて箇条書き形式で述べていく.

1. ビッグデータとは何を意味するのか?

◯ビッグデータの定義:3つのV
- Volume: データ量
- Velocity: データ発生頻度
- Variety:  データ多様性(非構造化+構造化)

==> 概念的には「これまでの技術では扱うのが困難た大量データ」ということになる.

◯Nature 2008において Big data の特集が組まれる.

2. 生命情報は果たして「ビッグデータ」なのか?

◯生命情報におけるビッグデータというば「DDBJ DNA Data Bank of Japan」

- 日本,欧州,米国の期間で毎日更新
- 10%は日本からのデータ

◯遺伝研におけるスパコンの現状
- スパコンランキング Top100 においては 世界で170位,日本で18位くらい
- 来年は2倍程度に規模拡大
- トータル500名くらいのユーザー
(研究用ユーザー:200名くらい.そのうち内部では50名くらい)
--目的:次世代シーケンサー (NGS) データの解析: だいたい規模として470テラくらい
--処理:機械学習処理を使って何かする以前の規則的な単純処理が現状
--並列処理: Hadoopを使っている
--クラウド: Amazonのクラウドサービスを使っている

3.  新型シーケンサー (NGS) = ビッグデータとは違う視点の提供

多様な生命情報のデータや知識の記述法の問題点:
◯機能や表現型を コンピュータのなかにどう表現するのか?
◯現在,Pathguide 300 といったいくつものフォーマットがあるがこれらを
どのようにまとめるのか?
- NGSデータだけではなくさまざまな周辺データを加える必要がある.

◯信頼性の問題,似たようなデータベースが多数存在する
- ライフサイエンス分野のデータ統合及び活用を阻む
- H18 より 内閣府主導の「統合DBプロジェクト」4省連携(文科,経産,農水,厚労省)
- 生命情報のRDF化: 主語、述語、目的語の3つ組(トリプル)で表現する
- 生命情報DBの特徴
-- RDFストア:ddbj トリプル数 80億 
-- 待ち時間が長い.スケーラビリティの問題(分散化、HadoopによるRDFストア)
-- データをきれいに整形しないとダメ

◯データをシェアするための精神,意識革新: 囲い込みすることはダメ

- Data Intensive Science# の中で データの囲い込み (きちんと公開されてない) が発生してしまう.

# Jim Gray (チューリング賞受賞者) による提唱.Jim Gray は 2007年に不慮の事故死 (母親の散骨) を遂げる.その後,MicroSoft Research Institute が彼の死を悼んで,Data Intensive Science に関する論文``Fourth Paradigm'' を出版している.Data Intensive Science に対して従来の科学は,Hypothesis Driven Scienceと呼ばれる.

Comments