アセンブルプログラム cap3: インストールと実行

informatics/bioinformatics/cap3
2018/02/05 更新

  1. アセンブルプログラム
  2. Mac への CAP3 のインストール
  3. CAP3 の使い方

広告

アセンブルプログラム

CAP3 は、重複部分のある配列をつなぎ合わせる assemble program の一種である。複数の DNA 配列を投げると、一定の規則に応じて繋がれた配列 contig を返してくる。

> 6 つのアセンブラーを比較した論文 (1,2)。
  • Newbler 2.3, Newbler 2.5, CAP3, CLC assembly cell 3.0, MIRA 3.0, SeqMan NGen 2.1 の 6 つを比較。
  • 同じデータをアセンブルしても、ソフトで大きな違いがある。

Mac への CAP3 のインストール

CAP3 は ここ からウェブベースで走らせることも可能である。しかしときどきサーバーが落ちていることがあり、またローカルで走らせた方が早いので、以下のようにしてインストールする。

  1. このページ から圧縮ファイルをダウンロードする。
  2. たとえば cap3.macosx.intel32 をダウンロード、解凍すると、同名のフォルダができる。
  3. この中に cap3 が入っているので、これを ターミナル で実行すれば良い。

ただし、ターミナルで単に cap3 とすると、基本的なプログラムが収められているフォルダ usr/bin/ で cap3 を探してしまい、プログラムが見つからないというエラーが出る。したがってパス指定が必要である。簡単な方法は、cap3 がインストールされているフォルダまで移動し ./cap3 としてプログラムを実行すること。./ がカレントフォルダを表す。

または、Mac でパスを通す のページを参考にしてパスを設定すれば、cap3 と打つだけでコマンドが使えるようになる。


広告

CAP3 の使い方

使い方はシンプルで、

cap3 file_of_reads [options]

とする。file_of_reads は複数の DNA 配列を含む FASTA ファイル である。オプションは以下。


アセンブルが成功すると、次のようなファイルが生成される。seq.fasta というファイルをアセンブルした場合、

  • seq.fasta.cap.contigs - 生成したコンティグが収められている。
  • seq.fasta.cap.contigs.links - ??
  • seq.fasta.cap.contigs.qual - 数字の羅列、たぶんアセンブルの quality
  • seq.fasta.cap.contigs.info - アセンブルのログみたいなもの
  • seq.fasta.cap.contigs.singlets - アセンブルされずに残った配列

とりあえずは、contigs と singlets が配列の情報である。


配列を追加するとき

長い配列 (大きい遺伝子、mtDNA など) の全長を CAP3 で決めようとするときの注意点。

たとえば最初のシークエンスで 7 個の配列があり、これをアセンブルすると Contig x 2, Singlet x 1 になったとする。

さらに実験をして得た 3 個の配列を追加してアセンブルしたいときは、最初の 7 個に追加する。つまり計 10 個の配列を一から CAP3 する。初回のアセンブルで得られた Contig + Singlet に 3 個を追加すると、一部の配列は 2 回 CAP3 されることになり、結果が予測できない。


広告

コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)



フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。


References

  1. de novo Transcriptome; 454用のベストなアセンブラーはどれだ!? Link: Last access 10/29/2017.
  2. Kumar and Blaxter 2010a. Comparing de novo assemblers for 454 transcriptome data. BMC Genomics 11, 571.