Mac でベイズ法の系統樹を作る:
MrBayes のインストールと使い方

UB3/informatics/bioinformatics/tree_make_mrbayse_mac


  1. Mac での MrBayse の使い方
    • インストールとデータの読み込み
    • モデルの決定
    • 解析の実行
    • 解析の終了
  2. 古い情報
    • MrBayse のインストール
    • BEAST に逃げる?

広告

Mac での MrBayse の使い方

2022 年 1 月に使ったときのまとめ。2018 年の古い情報も、消さずにページの下の方に残しておく。Mac OS Monterey, Mr. Bayes 3.2.7a。系統樹の基礎 のページも参照のこと。

インストールは homebrew で簡単にできた。BEAGLE なども dependency として自動でインストールされる。Ubuntu の場合は sudo apt-get install mrbayes で OK (2022 年 3 月、20.04)。

brew install mrbayes

使い方の概要は以下の通り。

1. MrBayes の起動とデータ読み込み

ターミナル で起動、読み込みを行う。MrBayes を起動する前に、カレントディレクトリに nexus ファイルを準備しておく。

mb

を実行すると起動され、プロンプトが MrBayes > に変化する。ここで以下のように execute を利用してファイルを読み込む。

execute input.nexus

読み込みむのは nexus 形式のファイルで、拡張子は nexus, nxs など。このファイルを作る方法はいくつかある。

  • Clustal Omega のアウトプットを nexus にし、結果を右クリックでダウンロードすると clustalo-長い数字-.nxs というファイルがダウンロードされる。CIPRES ではこれをさらに変換しなければならなかったが、ローカルの MrBayes ではそのまま使える。
  • T-coffee, M-coffee の結果を nexus にするときは、まず fasta フォーマットの結果をダウンロードする。これを EMBOSS seqret で nexus に変換できる。nexus/paup interleaved format と nexus/pauo non-interleaved があるので、interleaved の方を選ぶ。ただし、このページは DNA, protein の設定が正しく認識されない気がする。nexus ファイルをマニュアルで変更する必要があるかもしれない。datatype=DNA または Protein、missing=N または X とした。
  • MUSCLE アラインメントは、この EMBL で output format 結果を ClustalW にする。これを上記の EMBOSS seqret で nexus に変換する。

モデルの決定

MbWiki には、以下の例がクイックスタートの方法として載っている (1)。

lset nst=6 rates=invgamma

ここでは、2 つのパラメーターを設定している。lset では、likelihood model のパラメーターを設定する (2)。この例では、nst の 6 番 (general model of DNA substitution, the GTR) と、gamma-distributed rate variation accross sites に設定しているようだ。

選択できるモデルは多数ある。まずは、配列の種類を考える必要がある。 文献 3 などを参考に決定する。

  • タンパク質をコードしていない塩基配列: MrModeltest と PAUP を使ってモデルを決定する。
  • タンパク質をコードしている塩基配列: コドン内の位置によって異なる進化モデルを使うのが普通。
  • アミノ酸配列: Prottest で調べる。以下にはこの例が載っている。

私が使ったことのあるモデルを中心に、アミノ酸配列を解析する場合に選択できるものを表にまとめておく。網羅できていないと思われるので、公式サイトも参照のこと。

WAG, LG, etc.

基本は Prottest で決定されたモデルを使用。

prset aamodelpr=fixed(lg)

のように実行して設定する。成功すると Setting Aamodelpr to Fixed(LG) Successfully set prior model parameters のようなメッセージが出る。

( ) の中を WAG などに変えることで、違うモデルを指定可能。BLOSUM は blosum、JTT は jones を入れるようだ (3)。

Distribution model:
+G, +I, etc.

これも Prottest の結果に従う。以下のようにして設定する。

  • G: lset rates=gamma
  • I: lset rates=propinv
  • I + G: lset rates=invgamma
  • F: prset statefreqpr=fixed(empirical)
  • G + F: statefreqpr=fixed(empirical); lset rates=gamma
  • I + F: statefreqpr=fixed(empirical); lset rates=propinv
  • I + G + F: statefreqpr=fixed(empirical); lset rates=invgamma


広告

解析の実行

以下のようにすると、マルコフ連鎖モンテカルロ法による解析が始まる。この例では、10000 世代を指定している。

mcmc ngen=10000 samplefreq=10

細かい指定方法はバージョンによって異なるが、文献 3 にも書かれているように、正確な結果を得るために重要なポイントは以下の 2 点である。

  1. 連鎖が収束してからサンプリングすること。
  2. 十分なサンプル数を確保すること。

連鎖の収束は、Average standard deviation of split frequencies (ASDSF) で確認する。上記のコマンドで mcmc を開始すると、一定数ごとに以下のようなメッセージが出る。

Average standard deviation of split frequencies: 0.019298

マニュアルには、この値が 0.01 以下になれば収束したとして、次のステップに進んで良いと書かれている。どれくらい時間がかかるかは、配列やコンピューターの性能によるので何とも言えないが、普通の論文を書く用途なら iMac などで十分。数時間から一晩、最長で数日を見ておけば良いだろう。100 万 generation が必要なケースは稀。

数字は基本的に単調に減少するが、増える場合もある。グラフは、300 万 generations 回してみたときの変化。増減を繰り返しながら、徐々に下がっていく感じ。

MrBayes ASDSFの変化

解析の終了

0.01 以下になったら、

sump burnin=250

で結果を要約する。250 のところには、樹形数の 1/4 の数字 を入れる (3)。

mcmc ngen=10000 samplefreq=10 で解析を開始した場合、樹形のトータルが 10000, 10 につき 1 個を採用しているので、樹形数は 1000 である。その 1/4 なので、250 を入れることになる。Generation によって変更する必要があるので注意する。

この結果でチェックするのは、次の 2 点。

このようなグラフが出てくるので、ここに特定の増減傾向がないことを確認する。

MrBayesによる系統樹

また、グラフの下に出てくる表に PSRF+ という値があり、これが 0.9 - 1.1 程度に収まっていること (3)。1.0 に近いほど良いらしい。

以上を確認できたら、

sumt burnin=250

のようにして結果のファイルを出力する。数字の部分は sump と同じにする。つまり樹形数の 1/4 の数字を使う。

sample.nexus.con.tre のような名前のファイルが、系統樹のファイルである。sample.nexus の部分には、読み込んだ nexus ファイルの名前が入る。系統樹のファイルは、TreeView, FigTree のようなソフトや、IcyTree で可視化できる。

  • sample.nxs.run1.p というファイルに、ターミナルウィンドウに表示される generation などのパラメーターが記録されている。何世代回したかをチェックしたいときは、このファイルを参照する。

広告

References

  1. MbWiki Tutorial. Link: Last access 2022/01/08.
  2. Lset. Link: Last access 2022/01/08.
  3. MrBayes 3.1.2 を用いた系統解析. Link: Last access 2022/01/08.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment