概要: アセンブリープログラムについて
コンティグは gap のないひと続きの配列である (図、文献 5)。Scaffold は contig の集合体で、contig の位置、方向などの情報も含んでいる。

AbySS は short paired-end reads のための de novo assembler である。GitHub のページ。ABySS 2 は低いメモリ使用量で大きなゲノムのアセンブルも可能。 |
conda でインストール可能。最後のアップデートは 2017 頃で、python パッケージなど outdated か。 |
SOAPdenovo |
ヒトゲノムのアセンブルには 150 GB memory が必要 (GitHub) ということで、残念ながら普通のコンピューターでは走らないだろう。 |
> 6 つのアセンブラーを比較した論文 (1,2)。
- Newbler 2.3, Newbler 2.5, CAP3, CLC assembly cell 3.0, MIRA 3.0, SeqMan NGen 2.1 の 6 つを比較。
- 同じデータをアセンブルしても、ソフトで大きな違いがある。
De novo assembly
> Variant discovery rate, genotyping accuracy と depth の関係 (図、Ref. 3)。
- DD, LL, YY はブタの系統。
- Re-sequencing でバリアントを調べるという目的なら、6 から 8x 程度の depth で十分なようだ。

> 100 MB 程度までのゲノムで、de novo に必要な depth を調べた論文 (4)。
- E. coli (4.6 MB), S. kudriavzevii (11.18 MB), C. elegans (100 MB) のイルミナデータを使用。
- SOAPdenovo, Velvet, ABySS, Meraculous, IDBA-UD を使用。
- Meraculous は 100x, その他は 50x が最適な depth であった。
- メモリ使用量は 6 - 40 GB RAM 程度。
Transcriptome assembly の 似たような論文 もある。必要に応じて再チェック。

Reference-guided assembly
近縁種のゲノム情報が既にある場合、これを利用して効率的に assembly を行うことができる。この方法を

RaGOO というプログラムが 2019 年に出ている。あとでチェック。
- de novo Transcriptome; 454用のベストなアセンブラーはどれだ!? Link: Last access 10/29/2017.
