塩基配列アラインメントの原理と主なプログラムの特徴

informatics/bioinformatics/alignment_programs
7-26-2017 updated

  1. 概要: アラインメントの原理
  2. 主なアラインメントプログラムの特徴

広告

概要: アラインメントの原理

複数の塩基配列,アミノ酸配列などを並べることをアラインメント alignment という。遺伝子などが相同 homologous であるかどうかを調べるために有効な手法である。

2 つの配列をアラインメントする際には,原則として以下の作業が行われ,最適なアラインメントが決定される。

スライド

2 つのアミノ酸配列を順にスライドさせていき,同一なアミノ酸の数を数える。

ABCDDEFIJ
GDCEFHIJ

この状態では 3 番目の C だけが同一であるが,次のようにスライドさせることで D, E, F と 3 個の同一な文字が現れる。こちらの方がより良いアラインメントと言える。

ABCDDEFIJ
  GDCEFHIJ


もちろん,計算はアミノ酸が単に同一か異なるかだけではなく,アミノ酸の構造や機能の違いによって置換にスコアがあり,そのスコアを最大にするようなアラインメントが良いアラインメントとなる。


ギャップの挿入

下のように 1 個 ギャップ gap を挿入することで,一致率をさらに高めることができる。

ABCDDEF-IJ
  GDCEFHIJ


ただし,無制限にギャップを導入できるとアラインメントが成り立たなくなるため,通常 gap の導入にはペナルティが課せられる。例えば,アミノ酸の一致が +10 ポイント,ギャップを 1 個入れると -25 ポイントなどである (3)。そのスコアを最大にするようなアラインメントが採用される。アルゴリズムの異なる様々なアラインメントプログラムが使われている。


シャッフル

得られた結果が偶然ではないことを確認する作業である。

配列の一方をランダムにシャッフルして,スコアの計算を繰り返す。すると,スコアは山形の確率分布を示すことになるだろう。すると,シャッフルしない配列 (元の配列) のスコアがこの分布に対してどれぐらい珍しいものかを P 値という形で算出することができる。P 値が十分に低い場合,配列が元の順番で並んでいることが偶然である可能性が十分に低い,ということになる。

この考え方は一般的な統計検定の考え方と共通し,ブートストラップにも少し似ている。以下のページも参照のこと。


広告

主なアラインメントプログラムの特徴

名前 特徴
Clustal Omega

かつては Clustal W というプログラムがよく使われてきたが,2015 年 10 月現在では,EMBL のサーバーは Clulstal Omega を提供するようになっている (2)。

MUSCLE

MUSCLE (MUltiple Sequence Comparison by log-Expectaition) は,2004 年に発表されたアラインメントプログラムである (1)。Clustal W よりも早く,オプションを適切に選べば原則として Clustal W よりも「良い」アラインメントを返すと主張されている (1)。


コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)



このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. Edgar 2004a. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res 32, 1792–97.
  2. Clustal Omega. Link.
  3. Amazon link: Berg et al. Biochemistry: 使っているのは 6 版ですが 7 版を紹介しています。