メモリ使用量の低いアセンブリープログラム ABySS:
インストール、使い方など

UB3/informatics/bioinformatics/abyss

このページの最終更新日: 2022/05/16

  1. 概要: ABySS とは
  2. ABySS のインストール
  3. ABySS の使い方
    • k-mer の設定
    • ABySS の output

広告

概要: ABySS とは

AbySS は short paired-end reads のための de novo assembler である。アセンブリー全般については、アセンブリーの概要 を参照のこと (図、文献 2)。ABySS については GitHub のページ(6) が本家である。

リード、コンティグ、scaffold の違い

ABySS 1.0 は、SOAPdenovo などと同様に 600 GB ものメモリを必要としたようだが、ABySS 2 では大幅にメモリ使用量が低下し、 35 GB でヒトゲノムのアセンブリができた (1,4)。k-mer のサイズは 127 まで、オリジナル論文は文献 4。

ABySS のインストール

AbySS は Mac ならば brew または conda、Linux ならば apt-get install または conda でインストールできる。conda install -c bioconda abyss。

ABySS の使い方

Paired-end のアセンブリーは以下のようにする。k は k-mer の長さ、ペアリード名には 1 と 2 の数字が入っていないといけない。name はアウトプット名で、生成されたコンティグは name-contigs.fa などという fasta ファイルに保存されるようだ。

abyss-pe name=ecoli k=96 B=2G in='reads1.fa reads2.fa'

k-mer の設定

k=96 のようにして、k-mer を指定する。大まかな目安は以下の通り。

  • 2 x 150 bp, 40x coverage の場合、適切な k-mer は 70 から 90 である (6)。50 から 90 の間で、for loop で試すスクリプトが載っている。
  • デフォルトの k-mer 最大値は 192 (6)。

ABySS の output

  • Unitigs: Paired-end 情報を使わずにアセンブルされた配列。Single-end data を使った場合、これが唯一の結果ファイルとなる。
  • Contigs: Paired-end 情報を使ってアセンブルされた配列。Contains sequences assembled with paired information, scaffolding over sequencing coverage gaps, but no repeats.
  • Scaffolds: Contains sequences assembled with paired information, scaffolding over sequencing coverage gaps and repeats.
  • Long Scaffolds: Contains sequences that were obtained by rescaffolding using long sequences libraries.

2022 年 5 月、unitigs はシンボリックリンクで与えられ、output-3.fa というファイルにリンクが張られていた。-1.fa, -2.fa というファイルもあった。

このページ によると、ABySS は複数のステップでアセンブリーし、そのたびに番号を増やしていくので、この場合は output-3.fa のみが最終結果であり、他のものは通常は必要なさそう。また、.dot などの拡張子をもつファイルも作られるが、これも通常は必要ないようだ。


2022 年 4 月に GitHub ページの例を試してみた結果。まず以下のようにテストデータセットをダウンロードして解凍する。

wget http://www.bcgsc.ca/platform/bioinfo/software/abyss/releases/1.3.4/test-data.tar.gz
tar xzvf test-data.tar.gz

これをアセンブルすると、test-contigs.fa や test-scaffolds.fa などのファイルが作られる。

abyss-pe k=25 name=test B=1G in='test-data/reads1.fastq test-data/reads2.fastq'

Contiguity statistics を計算する。n, n:500, L50, min, N75, N50, N25, E-size, max, sum, name のパラメーターが表示される。

abyss-fac test-unitigs.fa

assembly-stats というプログラムを利用してもよさそうだが、これは新たにインストールする必要があるので、abyss-fac を使う方が便利だろう。


広告

広告

References

  1. Mac でインフォマティクス ABySS 2.0. Link: Last access 2021/04/23.
  2. Johnson et al., 2012a. Evaluating methods for isolating total RNA and predicting the success of sequencing phylogenetically diverse plant transcriptomes. PLoS ONE 7, e50226.
  3. ABySS, Genome Science Center.Link: Last access 2022/04/23.
  4. Jackman et al., 2017a. ABySS 2.0: resource-efficient assembly of large genomes using a Bloom filter. Genome Res27, 768-777.
  5. ABySS. Omicsbox. Link: Last access 2022/04/23.
  6. GitHub のページ: Last access 2022/05/09.

Figures are cited from open-access articles distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment