アセンブリープログラム

UB3/informatics/bioinformatics/assembly_program

このページの最終更新日: 2023/02/14

  1. 概要: アセンブリープログラムについて
  2. De novo assembly
  3. Reference-guided assembly

広告

概要: アセンブリープログラムについて

アセンブリーについての基本的な事項をここにまとめおく。

コンティグは gap のないひと続きの配列である (図、文献 5)。Scaffold は contig の集合体で、contig の位置、方向などの情報も含んでいる。

リード、コンティグ、scaffold の違い

ABySS

AbySS は short paired-end reads のための de novo assembler である。GitHub のページ。ABySS 2 は低いメモリ使用量で大きなゲノムのアセンブルも可能。

cap3

AMOS

conda でインストール可能。最後のアップデートは 2017 頃で、python パッケージなど outdated か。

SOAPdenovo

ヒトゲノムのアセンブルには 150 GB memory が必要 (GitHub) ということで、残念ながら普通のコンピューターでは走らないだろう。


> 6 つのアセンブラーを比較した論文 (1,2)。

  • Newbler 2.3, Newbler 2.5, CAP3, CLC assembly cell 3.0, MIRA 3.0, SeqMan NGen 2.1 の 6 つを比較。
  • 同じデータをアセンブルしても、ソフトで大きな違いがある。

De novo assembly

> Variant discovery rate, genotyping accuracy と depth の関係 (図、Ref. 3)。

  • DD, LL, YY はブタの系統。
  • Re-sequencing でバリアントを調べるという目的なら、6 から 8x 程度の depth で十分なようだ。
Depth とジェノタイピングの正確性

> 100 MB 程度までのゲノムで、de novo に必要な depth を調べた論文 (4)。

  • E. coli (4.6 MB), S. kudriavzevii (11.18 MB), C. elegans (100 MB) のイルミナデータを使用。
  • SOAPdenovo, Velvet, ABySS, Meraculous, IDBA-UD を使用。
  • Meraculous は 100x, その他は 50x が最適な depth であった。
  • メモリ使用量は 6 - 40 GB RAM 程度。

Transcriptome assembly の 似たような論文 もある。必要に応じて再チェック。

Reference-guided assembly

近縁種のゲノム情報が既にある場合、これを利用して効率的に assembly を行うことができる。この方法を reference-guided assembly という。

Reference-guided assembly

RaGOO というプログラムが 2019 年に出ている。あとでチェック。


広告

References

  1. de novo Transcriptome; 454用のベストなアセンブラーはどれだ!? Link: Last access 10/29/2017.
  2. Kumar and Blaxter 2010a. Comparing de novo assemblers for 454 transcriptome data. BMC Genomics 11, 571.
  3. Jiang et al., 2019a. Optimal sequencing depth design for whole genome re-sequencing in pigs. BMC Bioinformatics 20, 556.
  4. Desai et al., 2013a. Identification of optimum sequencing depth especially for de novo genome assembly of small genomes using next generation sequencing data. PLoS ONE, 8, e60204.

Figures are cited from open-access articles distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。