ヒトゲノム計画
Human genome project(HGP)(ヒトゲノム計画)とは、ヒトの全遺伝子情報を読むという国際プロジェクトだ。遺伝子工学や生物学の話で、ITとあまり関係ないと思っている人がいるかもしれないので、簡単に説明する。このプロジェクトにはITやコンピュータが大いに関係するのだ。実際、超高速のコンピュータなしでは、完了は無理だっただろう。このプロジェクトに絡み、YouTubeで非常に興味深い映像を見つけたので、はり付けておく。Selfish gene (利己的な遺伝子)の著作で有名なRichard Dawkins氏 が、HGP完了の貢献者の1人であるCraig Venter氏にインタビューする形で、Venter氏のDNAシーケンサーの施設を見せてくれている。すべて英語だが、少なくともその施設が、ITエンジニアの皆さんがよく知っているデータセンターとかわらない雰囲気の場所だと分かると思う。生物学の研究所によくあるように、白衣を着た研究者がスポイトで試験管に何かの液を入れて、それをペトログラス上で培養しているところや、顕微鏡を長く見すぎて疲れた目をこすっている風景なぞ一切ない。
HGPは米国のエネルギー省と国立衛星研究所(NIH)が中心になり、英国、日本、フランス、ドイツ、中国などの研究機関が協力しておこなった、ヒト遺伝子を丸ごと読もうという壮大なプロジェクトだ。結局2003年の4月に予定よりも2年早く完了したわけだが、そこに至るまでの過程が面白い。HGP自体は公的なプロジェクトで、その目的は読み取ったDNAのシーケンスを無料で公開し、世界中で医療などの研究に利用してもらおうというものだ。初代所長として、DNAの分子構造を解明したノーベル賞学者のJames D. Watson氏が務めた。
上記の映像でインタビューを受けているCraig Venter氏は当初、NIHの研究者として、HGPに参加していた。しかし、途中で、より高速でシーケンスを読み取る方法があるとして、NIHを飛び出しCalera Genomicsというベンチャー企業を立ち上げたのだ。
ここで問題は、Caleraは私企業、つまり営利追及が目的だということだ。Caleraは無料で読み取ったゲノム情報を無料公開するつもりはなく、有料で必要とする研究機関などに提供することが目的なのだ。ゲノムは人類共通の知識として、人類すべてが平等に利用できなければ意味がないという思想で推進されているHGP側の思惑と大きく食い違う。その結果、万が一Calera側が早くゲノムの読み込みに成功するようなことがあれば一大事と、HGPとCaleraの間でゲノム読み込みのデッドヒートが繰り返された。
結局、2000年3月に、当時のクリントン大統領が「ゲノムのシーケンスは特許の対象にはなりえない。すべての研究者に無料で提供されなければならない」と宣言し、この問題は解決した。結果、ナスダックに上場されていたCaleraの株価は暴落した。
ゲノムを読み取るためにHGPが採用していた方法と、Caleraで使われていた方法だが、その方法の違いにより、両者のコストの差はけた違いだったらしい。上の映像でCraig Vender氏が語る内容を信じるとすると、HGPでは50億ドル。Caleraでは、1億ドル程度。Caleraでは実に50分の1で達成できている。実際HGPは日本、ヨーロッパの研究機関を巻き込んだ世界規模のプロジェクトだったが、Caleraは上の映像でみせる施設1つでの達成だった。
両者の違いを一言でいい表すと、コンピュータの能力の使い方の差だ。ヒトの遺伝子は、30億塩基対(Adenine, Guanin, Cytosine, Thymin)。 当然だが、それを1度にシーケンサーにかけて読みとれない。シーケンサーはFrederick Sangerという英国人が発案実用化した、chain termination methods (鎖停止法)という方法を基本原理としたものだが、この方法では1度に読み取れる塩基対の長さは100~300程度にすぎない。結局、30億の塩基対をばらばらに切り刻んで、読み取りを進めることになる。その方法を「ショットガンシーケンス」という。ショットガンつまり散弾銃は、小さな弾丸が銃口より放射状に発射されるということの比喩(ひゆ)である。
HGPが採用していた方法はClone-by-clone法と呼ばれる。切り刻む前に、塩基対の全体のゲノムの中での位置を特定できる形(*1)で、まず10万塩基対ぐらいの単位に分けて、その塩基対にショットガンシーケンス処理を施す方法をとった。10万の塩基対にある読み取り単位の断片の数はそれほど多くない。比較的少ない計算量で、再構成が可能だ。再構成の基本原理は簡単で、塩基対の断片の重複部分を見つけてつなげていくというものだ。
(*1)小生、今この分野、必死で勉強しているのですが、HGPが採用したやり方で、時間がかかるのはこの「位置を特定できる形」かと思う。詳しい方がいれば教えていただければ、幸いです。
【再構成の概念図】
AGACGTGAATTACTA 断片1 GGGCCTACGAAGAC 断片2 ACTAGGCGATTTCGG 断片3 I V GGGCCTACGAAGACGTGAATTACTAGGCGATTTCGG 再構成後
それに対して、Caleraが採用した方法は、Whole Shot gun secuenceと呼ばれる方法だ。30億の塩基対をすべてまるごと、鎖停止法で読み取れる大きさに切りきざんで、その結果を丸ごと再構成する。
両者で必要なコンピュータの計算量の差は、(ITエンジニアのみなさんなら分かると思うが)けた違いだ。普通に考えて、再構成に必要な計算量はO(k2)( kは断片の総量で、k2はkの2乗)になる。単純に考えて10万の塩基対を100ごとの断片に分けて、つまり1000個の断片を再構成させるための計算量は1000の2乗、つまり10の6乗。それに対して30億の塩基対をすべて断片化したもの、つまり3千万の塩基対を再構成する場合、10の13乗。両者の差は10の7乗。つまり1千万倍。仮に10万の塩基対の再構成が1分でできるなら、30億なら20年。
さらに、鎖停止法を使った塩基対読み取りには、必ず一定の頻度の読み取りミスがある。また、DNA塩基対には、同じパターンが延々と繰り返されるリピートの部分もある。それらをすべて考慮して、30億の塩基対を断片化したものの再構成など、本当にできるのかと疑ってしまう。されど高度なコンピュータサイエンスと、スーパーコンピュータを駆使していたわけで、コンピュータの偉大さをあらためて再認識した。
コメント
人ゲノム計画で使われたシーケンサ。基本原理はサンガー法と言う方法ですが、効率よくそれを行うために、その原理が確立してから、色々と工業的改善がされています。そのひとつにキャピラーを使うというものがありますが、これは日立製作所が特許を取った技術です。『ゲノムの敗北』と言う本に書いてました。