塩基配列アラインメントの原理と主なプログラムの特徴

informatics/bioinformatics/alignment_programs
7-26-2017 updated

  1. 概要: アラインメントの原理
  2. 主なアラインメントプログラムの特徴
  3. コマンドラインを使って Clustal Omega を走らせる

広告

概要: アラインメントの原理

複数の塩基配列、アミノ酸配列などを並べることをアラインメント alignment という。遺伝子などが相同 homologous であるかどうかを調べるために有効な手法である。

2 つの配列をアラインメントする際には、原則として以下の作業が行われ、最適なアラインメントが決定される。

スライド

2 つのアミノ酸配列を順にスライドさせていき、同一なアミノ酸の数を数える。

ABCDDEFIJ
GDCEFHIJ

この状態では 3 番目の C だけが同一であるが、次のようにスライドさせることで D, E, F と 3 個の同一な文字が現れる。こちらの方がより良いアラインメントと言える。

ABCDDEFIJ
  GDCEFHIJ


もちろん、計算はアミノ酸が単に同一か異なるかだけではなく、アミノ酸の構造や機能の違いによって置換にスコアがあり、そのスコアを最大にするようなアラインメントが良いアラインメントとなる。


ギャップの挿入

下のように 1 個 ギャップ gap を挿入することで、一致率をさらに高めることができる。

ABCDDEF-IJ
  GDCEFHIJ


ただし、無制限にギャップを導入できるとアラインメントが成り立たなくなるため、通常 gap の導入にはペナルティが課せられる。例えば、アミノ酸の一致が +10 ポイント、ギャップを 1 個入れると -25 ポイントなどである (3)。そのスコアを最大にするようなアラインメントが採用される。アルゴリズムの異なる様々なアラインメントプログラムが使われている。


シャッフル

得られた結果が偶然ではないことを確認する作業である。

配列の一方をランダムにシャッフルして、スコアの計算を繰り返す。すると、スコアは山形の確率分布を示すことになるだろう。すると、シャッフルしない配列 (元の配列) のスコアがこの分布に対してどれぐらい珍しいものかを P 値という形で算出することができる。P 値が十分に低い場合、配列が元の順番で並んでいることが偶然である可能性が十分に低い、ということになる。

この考え方は一般的な統計検定の考え方と共通し、ブートストラップにも少し似ている。以下のページも参照のこと。


広告

主なアラインメントプログラムの特徴

名前 特徴
Clustal Omega

かつては Clustal W というプログラムがよく使われてきたが、2015 年 10 月現在では、EMBL のサーバーは Clulstal Omega を提供するようになっている (2)。

MUSCLE

MUSCLE (MUltiple Sequence Comparison by log-Expectaition) は、2004 年に発表されたアラインメントプログラムである (1)。Clustal W よりも早く、オプションを適切に選べば原則として Clustal W よりも「良い」アラインメントを返すと主張されている (1)。


コマンドラインを使って Clustal Omega を走らせる

以下の作業が、2018 年 3 月 1 日時点、Mac High Sierra で有効であった。

  1. このページ からダウンロード、名前を clustalo に変えて好きなフォルダに置く。
  2. chmod +x clustalo を実行し、プログラムを実行する権限を追加。
  3. そのフォルダで、FASTA 方式で保存した テキストファイル を読み込んで実行。

./ clustalo -i seq.txt --


./clustalo --help でヘルプを参照することができる。-i で読み込むファイルを指定。

Output format は表現が少しわかりにくい。

--outfmt={a2m=fa[sta],clu[stal],msf,phy[lip],selex,st[ockholm],vie[nna]} MSA output file format (default: fasta)

とヘルプに書かれている。これは、clustal format でアウトプットしたいときは

./clustalo -i test.txt --outfmt=clu

のように書けということ。

clu は、ウェブの Clustal Omega のように同一塩基にアスタリスクがつく。

A ---------- -GATAGCTAG ---------
B ATCTGACTGA GGATAGCTAG GGCCGAATC
              *********



msf はアスタリスクなし、塩基やアミノ酸の番号つきで - のかわりに ~ になる。

A ~~~~~~~~~~ ~GATAGCTAG ~~~~~~~~~
B ATCTGACTGA GGATAGCTAG GGCCGAATC



広告

コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)



フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。


References

  1. Edgar 2004a. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res 32, 1792–97.
  2. Clustal Omega. Link.
  3. Amazon link: Berg et al. Biochemistry: 使っているのは 6 版ですが 7 版を紹介しています。
  4. Link: Last access 2018/