系統樹の作り方: MEGA で最尤法を使う

informatics/bioinformatics/tree_make_mega_ml
2018/01/20 更新

Mac への MEGA のインストール
最尤法の各パラメーターの意味
MEGA を使った系統樹作成: 最尤法
参考: Linux で MEGA を使う方法

Mac への MEGA のインストール

インストールは簡単。私がやったのは 2018 年 1 月であるが、基本的に同じだと思う。

Google で MEGA の公式サイトへ行き、Mac 用の最新版をダウンロードする。
インストーラーの指示に従い、MEGA をアプリケーションフォルダにドラッグする。
初回起動の際には、セキュリティの設定を操作する必要があるかもしれない。

インストールが完了したら、手持ちの配列を使って最尤法の系統樹を作ることができるが、途中でパラメーターを設定する必要があるので、まずはパラメーターの意味を簡単に示しておきたい。

ただし、このページに見るように、MEGA ではパラメーターの設定に限界があるようで、系統学の本当の専門家はこのソフトは使わないようだ。論文レベルでも MEGA を使った系統樹はたくさん存在するが、分子系統の専門誌を狙うなら他の方法を検討すべきだろう。

最尤法の各パラメーターの意味

チームてづるもづるの最尤法のページ (1) の解説がわかりやすい。

Phylogeny test

Bootstrap Method が一般的だろう。1000 回ぐらいはした方が無難と書かれている (1)。

Substitution type

これは単に塩基かアミノ酸かを選ぶ。

DNA に比べアミノ酸配列は保存性が高く、遺伝的距離が大きい場合に情報としての価値が高い (4)。また、置換に関する数学的モデルは DNA よりもアミノ酸の方がシンプルらしい (4)。

Model/Method

塩基またはアミノ酸の置換モデルを選ぶ。

モデルの選択は非常に深く、配列がどのように進化してきたかを考察して慎重に決定する必要があるようだ。

とりあえず、MEGA での方法を書いておく。

Models から .meg のアラインメントファイルを読み込む。
Find Best DNA/Protein Models (ML) で計算が始まる。
結果の表の一番上に出ているモデルを使う。

No of Discrete Gamma Categories

Gaps/Missing Data Treatment

ギャップをどう扱うか。

デフォルトでは Complete Deletion になっているが、これは「一つでもギャップがあるサイト (アラインメントにおける列) を解析から除く」という設定である (1,2)。MEGA のヘルプには、このオプションが一般に望ましいと書かれている (2)

... is generally desirable because different regions of DNA or amino acid sequences evolve under different evolutionary forces.

もう一つのオプションは Pairwise-Deletion であり、ギャップの数が少なく、かつランダムに分布しているときに望ましいと書かれている (2)。

MEGA を使った系統樹作成: 最尤法

1. 配列を集める

系統樹に含めたい配列を集め、FASTA 形式で保存する。

.fasta のファイルでも良いが、単に以下のような形式で配列を並べたテキストファイルでも OK。配列の名前は、アルファベットと数字のみにしておくのが安全。かっこやスペースは後に面倒なことになる可能性がある。

> Sequence1
AGTCAGTCGTGTAGTGTGATGTAGTA...
> Sequence2
AGTCAGTCGTGTAGTGTGATGTAGTA...

2. MEGA でアラインメントする

MEGA を立ち上げ、上記のファイルから配列をコピー & ペースト。Alignment から Clustal W または MUSCLE を選ぶ。

Alignment が終わったら Save session で .masx ファイルとして結果を保存。

3. 最適モデルの選択

4. 系統樹の計算

Phylogeny - Construct/Test Maximum Likelihood Tree を選び、.masx ファイルを選択。

系統樹の描画

計算が終わると、系統樹が表示される。まずはこれを保存しておこう。MEGA では、系統樹は .mts という拡張子で保存される。

Original Tree と Bootstrap concensus tree という 2 つのタブがある。

Bootstrap concensus tree は、Phylogeny test で設定した 1000 回などの繰り返しで、最も頻繁に現れた樹形を示している。したがって、この系統樹では branch length に意味はなく、ゆえに Original Tree で Display only topology を選んだ場合のような、枝の長さが揃った系統樹になる (5)。

データを論文にする際に実際に行われるのは、「ベストの系統樹」を選び、そこにイラストレーターなどで bootstrap 値を (75% や 80% を下限として) 手動で追加することである (5)。

コメント欄

フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。

References

チームてづるもづるの最尤法のページ. Last access 2018/01/17.
MEGA help. Link: Last access 2018/01/17.
ResearchGate: MEGA: How do I find and use a best-fit substitution model? Link: Last access 2018/01/17.
Amazon link: Nei and Kumar 2000a. Molecular Evolution and Phylogenetics.
Is anyone familiar with using Bootstrap Consensus Tree in MEGA software? ResearchGate. Link: Last access 2018/01/21.