アセンブリープログラム cap3: インストールと実行

UB3/informatics/bioinformatics/cap3

このページの最終更新日: 2023/02/14

  1. CAP3 のインストール
  2. CAP3 の使い方
  3. CAP3 エラーログ

広告

cap3 のインストール

cap3 は、重複部分のある配列をつなぎ合わせる assembly program の一種である。複数の DNA 配列を投げると、一定の規則に応じて繋がれた配列 contig を返してくる。

一般的事項および他の assembly program については、Assembly program の概要 のページを参照のこと。一応、ここにも assembly の概念図を載せておく (4)。

cap3のオプション一覧

Mac へのインストール

cap3 は ここ からウェブベースで走らせることも可能である。しかしときどきサーバーが落ちていることがあり、またローカルで走らせた方が早いので、以下のようにしてインストールする。

2 通りの 方法を紹介しておく。

簡単なのは、homebrew を使って brew install cap3 とすること。環境によっては、brew install brewsci/bio/cap3 とする必要があるようだ。

もう一つは、ファイルをダウンロードして実行する方法。

  1. このページ から圧縮ファイルをダウンロードする。
  2. たとえば cap3.macosx.intel32 をダウンロード、解凍すると、同名のフォルダができる。
  3. この中に cap3 が入っているので、これを ターミナル で実行すれば良い。

ただし、ターミナルで単に cap3 とすると、基本的なプログラムが収められているフォルダ usr/bin/ で cap3 を探してしまい、プログラムが見つからないというエラーが出る。したがってパス指定が必要である。簡単な方法は、cap3 がインストールされているフォルダまで移動し ./cap3 としてプログラムを実行すること。./ がカレントフォルダを表す。

または、Mac でパスを通す のページを参考にしてパスを設定すれば、cap3 と打つだけでコマンドが使えるようになる。

Linux へのインストール

2022 年 6 月、conda install -c bioconda cap3 でインストール可能であった。Ubuntu 18.04。

cap3 の使い方

使い方はシンプルで、input の fasta ファイルを指定するだけ。

cap3 file_of_reads.fasta [options]

オプションは以下。

cap3のオプション一覧

アセンブルが成功すると、次のようなファイルが生成される。seq.fasta というファイルをアセンブルした場合、

  • seq.fasta.cap.contigs - 生成したコンティグが収められている。
  • seq.fasta.cap.contigs.links - ??
  • seq.fasta.cap.contigs.qual - 数字の羅列、たぶんアセンブルの quality
  • seq.fasta.cap.contigs.info - アセンブルのログみたいなもの
  • seq.fasta.cap.contigs.singlets - アセンブルされずに残った配列

とりあえずは、contigs と singlets が配列の情報である。

input ファイルの大きさなど

cap3 は、基本的に小さい fasta ファイルのアセンブリーに使うプログラムである。メモリ使用量も、ABySS に比べると大きい。ネブラスカ大学のこのページ に有用な情報がある。自分の経験も足して、簡単に表にしておく。

Input file size

Run time

Used memory

37 MB

1.6 h

1.5 GB

150 MB

2 h

5 GB

836 MB

12 h

28 GB

1.5 GB

Error

64 GB 以上?


1.5 GB の fasta ファイルを input にしたときには、エラーログ にある segmentation fault のエラーが出た (2022 年 6 月)。メモリ 64 GB の、通常よりは良いコンピューターだったのだが、かなりメモリを使うと思われる。

この 1.5 GB のファイルを seqkit split で分割してから cap3 するとちゃんと実行されるので、これはフォーマットの問題でなく、ファイルサイズの問題であると思われた。


配列を追加するとき

長い配列 (大きい遺伝子、mtDNA など) の全長を cap3 で決めようとするときの注意点。

たとえば最初のシークエンスで 7 個の配列があり、これをアセンブルすると Contig x 2, Singlet x 1 になったとする。

さらに実験をして得た 3 個の配列を追加してアセンブルしたいときは、最初の 7 個に追加する。つまり計 10 個の配列を一から cap3 する。初回のアセンブルで得られた Contig + Singlet に 3 個を追加すると、一部の配列は 2 回 cap3 されることになり、結果が予測できない。

CAP3 エラーログ

segmentation fault (core dumped)

segfault として知られる一般的なエラー。あるソフトウェアが、アクセス禁止とされている領域 (アクセス禁止のメモリ領域、OS、read only 領域など) にアクセスしようとしたときに起こるようだ。

cap3 を使った場合のこのエラーが何を意味するかはわからないが、input data format に問題があったとする ページ がある。


広告

References

  1. de novo Transcriptome; 454用のベストなアセンブラーはどれだ!? Link: Last access 10/29/2017.
  2. Kumar and Blaxter 2010a. Comparing de novo assemblers for 454 transcriptome data. BMC Genomics 11, 571.
  3. Huang and Madan 1999a. CAP3: A DNA sequence assembly program. Genome Res, 9, 868-877.
  4. Johnson et al., 2012a. Evaluating methods for isolating total RNA and predicting the success of sequencing phylogenetically diverse plant transcriptomes. PLoS ONE 7, e50226.

Figures are cited from open-access articles distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。