CAP3: アセンブルプログラム

informatics/bioinformatics/cap3
2017/11/20 更新

  1. アセンブルプログラム
  2. Mac への CAP3 のインストール
  3. CAP3 の使い方

広告

アセンブルプログラム

CAP3 は、重複部分のある配列をつなぎ合わせる assemble program の一種である。複数の DNA 配列を投げると、一定の規則に応じて繋がれた配列 contig を返してくる。

> 6 つのアセンブラーを比較した論文 (1,2)。
  • Newbler 2.3, Newbler 2.5, CAP3, CLC assembly cell 3.0, MIRA 3.0, SeqMan NGen 2.1 の 6 つを比較。
  • 同じデータをアセンブルしても、ソフトで大きな違いがある。

Mac への CAP3 のインストール

CAP3 は ここ からウェブベースで走らせることも可能である。しかしときどきサーバーが落ちていることがあり、またローカルで走らせた方が早いので、以下のようにしてインストールする。

  1. このページ から圧縮ファイルをダウンロードする。
  2. たとえば cap3.macosx.intel32 をダウンロード、解凍すると、同名のフォルダができる。
  3. この中に cap3 が入っているので、これを ターミナル で実行すれば良い。

ただし、ターミナルで単に cap3 とすると、基本的なプログラムが収められているフォルダ usr/bin/ で cap3 を探してしまい、プログラムが見つからないというエラーが出る。したがってパス指定が必要である。簡単な方法は、cap3 がインストールされているフォルダまで移動し ./cap3 としてプログラムを実行すること。./ がカレントフォルダを表す。


広告

CAP3 の使い方

使い方はシンプルで、

cap3 file_of_reads [options]

とする。file_of_reads は複数の DNA 配列を含む FASTA ファイル である。オプションは以下。


アセンブルが成功すると、次のようなファイルが生成される。seq.fasta というファイルをアセンブルした場合、

  • seq.fasta.cap.contigs - 生成したコンティグが収められている。
  • seq.fasta.cap.contigs.links - ??
  • seq.fasta.cap.contigs.qual - 数字の羅列、たぶんアセンブルの quality
  • seq.fasta.cap.contigs.info - アセンブルのログみたいなもの
  • seq.fasta.cap.contigs.singlets - アセンブルされずに残った配列

とりあえずは、contigs と singlets が配列の情報である。


配列を追加するとき

長い配列 (大きい遺伝子、mtDNA など) の全長を CAP3 で決めようとするときの注意点。

たとえば最初のシークエンスで 7 個の配列があり、これをアセンブルすると Contig x 2, Singlet x 1 になったとする。

さらに実験をして得た 3 個の配列を追加してアセンブルしたいときは、最初の 7 個に追加する。つまり計 10 個の配列を一から CAP3 する。初回のアセンブルで得られた Contig + Singlet に 3 個を追加すると、一部の配列は 2 回 CAP3 されることになり、結果が予測できない。


広告

コメント欄

一言コメントをどうぞ! (100 字まで)



このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. de novo Transcriptome; 454用のベストなアセンブラーはどれだ!? Link: Last access 10/29/2017.
  2. Kumar and Blaxter 2010a. Comparing de novo assemblers for 454 transcriptome data. BMC Genomics 11, 571.