系統樹の基礎: 原理、解釈など

informatics/bioinformatics/tree_basic
2018/05/17 更新

  1. 概要: 系統樹とは
    • 種系統樹と遺伝子系統樹
    • 無根系統樹と有根系統樹

  2. 系統樹の作成方法

広告

概要: 系統樹とは

下の図 (4) のように、生物種や遺伝子間の進化的距離を算出し、それを樹状の図で表したものを 系統樹 phylogenetic tree という。


まず、系統樹を理解するために基本的な用語を定義しておく。

分子系統樹

塩基やアミノ酸のような分子情報から作った系統樹の総称。形態からでも系統樹は作れるので、これに対する用語と考えて良い。

分子を用いることの利点が、でまとめられている (6)。

  1. バクテリア、植物、動物など全ての生物で使える。形態は、形が似通った生物でしか使えない。
  2. 数学的モデルを適用できる。
  3. ゲノムが大きいので、形態よりも情報量が多い。

樹形
トポロジー
Topology

分岐のパターン。枝の長さ branch length とともに、系統樹の基本要素の一つである (3)。

結節
Node

系統樹の枝が分岐する点のこと (3)。根 root や共通祖先 common ancestor とも関係する深い概念なので、「系統樹の解釈」なども参照のこと。

詳しい解説を参照

以下の用語については、この表の下に詳しい説明があります。

  • 種系統樹、遺伝子系統樹
  • 無根系統樹、有根系統樹


種系統樹と遺伝子系統樹

種系統樹は種間の関係を、遺伝子系統樹は遺伝子間の関係を表した系統樹である (3)。両者を区別することが、分子系統樹を理解するための第一歩である。

  • 生物種間の関係は、かつては形態 (脊椎がある、羽があるなど) に基づいて推定されていたため、形態に基づいた 種系統樹 species tree が主流であったと思われる。
  • 現在よく見られるのは、塩基またはアミノ酸配列の情報を用いて遺伝子間の距離を算出した 遺伝子系統樹 gene tree である。

種・遺伝子系統樹が一致するとは限らない。もっともはっきりした例は、複数の遺伝子ファミリーがある場合である。例えばヘモグロビンとミオグロビンは共通の祖先遺伝子から進化した分子であり、これらの遺伝子の関係は遺伝子系統樹で表される。

一方、種・遺伝子系統樹が一致する場合もある。16S rRNA 配列による遺伝子系統樹は、これが種間の進化関係を表すことを想定して作られたものである。つまり、16S rRNA という遺伝子配列から種の進化を推定しようとしている。


系統樹の例 2: 16S rRNA 配列、最尤法 maximum likelihood method で作成したビブリオ属の分子系統樹 (1)。



無根系統樹と有根系統樹

押さえるべき重要な概念は以下の通りである。

  1. それぞれの 遺伝子 (アミノ酸) 配列を結ぶ枝 branch の長さが、遺伝的距離 (配列が異なる度合い) に比例する (2)。
  2. ただし、配列から算出されるのは相対距離のみであり、分岐年代を知りたいときは化石などの情報を参照しなくてはならない。

広告

系統樹の作成方法

系統樹を作成するアルゴリズムは複数あるが、大きく以下の 3 つに分類することができる (3)。

  1. 距離行列法 distance matrix method
  2. 節約法 parsimony method
  3. 最尤法 maximum likelihood method

距離行列法

距離法 distance method とも呼ばれる (3)。データセットに含まれる配列の進化的距離を算出し、これに基づいて系統樹を作る。


平均距離法
UPGMA

最も単純な距離行列法、unweighted pair-group method using arithmetic average の略。

近隣結合法
Neighbor-joining method


節約法

進化の過程で生じた置換が最小限であることを仮定し、系統樹を作る (3)。


最大節約法
Maximum parsimony method

進化速度 (塩基、アミノ酸の置換速度) が異なるデータがあると、最尤法に比べて間違った系統樹を描きやすいという議論があり、あまり使われなくなった (6)。

この問題についてはその後も議論があり、バイアスが極端な場合は最大節約法の方が正しい系統樹を作るというのが一応のコンセンサスとして紹介されている (6)。


最尤法

原理については、以下のようなさまざまな表現がある。

  • 特定の 1 塩基または 1 残基に着目し、確率計算を行って最も可能性の高い樹形を検索する。これを全ての塩基について繰り返す (3)。
  • 尤度が最大になるような系統樹を求める方法 (6)。尤度とは、ある樹形 (仮定) に沿って遺伝子が進化したとき、現在の配列セットが得られる確率である。

最尤法
Maximum likelihood method


ベイズ法
Bayesian method


> ベイズ法の原理のまとめ (6)。以下は自己流の解釈なので、原典をあたること。
  • ベイズ法は、ベイズの事後確率 Bayesian posterior probability を最大にするような系統樹を作る方法である。
  • 事後確率は、事前確率および尤度の積として求められる。事前確率は不明なので、これを MCMC で推定することになる。
  • モンテカルロ法は、ランダムな試行を繰り返して目的の値を近似的に求める方法である。ブートストラップ法 もこれにあたる。
  • 通常のモンテカルロ法では、試行がそれぞれ独立であるが、マルコフ連鎖モンテカルロ MCMC では、前の試行の結果に影響されるという立場をとる。
  • Metropolis-Hastings のアルゴリズムというものを使うと、事後確率の推定をすることができるらしい。ある試行の結果から、次の試行の結果を確率的に推定するということ。
  • ベイズ法では、最初はランダムな系統樹からスタートし、一部が異なる次の世代の系統樹を得る。これを採用するか棄却するかを判定し、系統樹が定常状態になるまで繰り返す。
  • 定常状態に達したら、そのデータからランダムにサンプリングする。ここでの樹形の出現頻度が、その樹形の事後確率になるらしい。

広告

コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)



このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. Thompson et al. 2009a. Genomic taxonomy of vibrios. BMC Evol Biol 9, 258.
  2. Amazon link: ストライヤー生化学: 使っているのは英語の 6 版ですが、日本語の 7 版を紹介しています。サイドバーの「本紹介・和書」にレビューがあります。
  3. Amazon link: これだけは知っておきたい 図解 ジェネティクス: サイドバーの「本紹介・和書」にレビューがあります。
  4. By Petter Bøckman - Own work, Public Domain, Link
  5. By Derrick Coetzee - Own work, Public Domain, Link.
  6. 仲田 2006a. Bayes 法 (ベイス法) の原理. Link: Last access 2018/05/17.