次世代シークエンシング: 概要と用語集

UB3/informatics/bioinformatics/ngs

このページの最終更新日: 2023/02/14

  1. 概要: 次世代シークエンシングとは
  2. NGS とバイオインフォマティクス
  3. NGS 関連用語集

広告

概要: 次世代シークエンシングとは

次世代シークエンシング (Next generation sequencing, NGS) とは、並列にシークエンスを行うことで高いスループットを達成した一連のシークエンシング技術である。


第二世代のシークエンサー

NGS は、ハイスループットを達成したシークエンシング技術の総称であるため、複数の原理がある。

非常に大雑把に言うと、2005 年頃から登場し、2013 年頃には比較的リードが長い Roche 454 系と、リードが短い Life Science の SOLiD、Illumina の HiSeq 系が競合していた。

このあたりの技術が、いわゆる「次世代」シークエンスという。サンガーシークエンスが第一世代で、その次の世代という意味。「第二世代」と呼ばれる場合もあるようだ (4)。

以下の表に概要をまとめた。どの技術も、マイクロ PCR に基づいた方法である。非常に小さい空間内で PCR を行い、超並列的に配列を決定することで、ハイスループットを達成している。

Platform

リード長
解析塩基数/run, 時間

その他特徴など

Roche 454 GS FLX+

up to 1 kb
700 Mb/run in 23 h

Cited from this page. 原理は pyrosequencing。

Roche 454 GS Jr.

up to 700 b
35 Mb/run in 10 h

Cited from this page. GS FLX の廉価版。

HiSeq 2000

50 b 前後
600 Gb/3-10 days

Ref 6, Illumina 社。

SOLiDv4

50 - 100 b
120 Gb/up to 14 days

Ref 6, Life Sciences 社 (旧 ABI)。


第三世代のシーケンサー

次世代シーケンサーは、非常に技術の移り変わりが早い分野である。

Roche 454 は最初に市場に出てきた次世代シークエンシング技術であったが、次第に使われなくなり、2016 年には Roche は市場から撤退した (4)。

かわって、2013 年ごろからメジャーになってきたのは、1 分子シークエンスを行う PacBio である。これはマイクロ PCR をベースとした上記の技術とは異なるので、第三世代とも呼ばれる。これにより、de novo アセンブリーなしにゲノム配列を決定することも可能になってきた。

Platform

リード長
解析塩基数/run, 時間

その他特徴など

NovaSeq6000

アウトプットが TB のスケールに達した Illumina のモデル (4)。

PacBio RSII

Single Molecule Real Time Sequencing (SMRT) により、数 kb のリード長を達成。

ナノポア

膜タンパク質の微細構造を DNA 分子が通り抜ける際の電流変化で配列を読む。DNA ポリメラーゼに頼らない技術。第四世代? 解読長は 4 Mb を超えた (4)。


NGS とバイオインフォマティクス

アウトプットは、50 bp から 1 kbp 程度までの塩基配列 リード read である。これを長い配列に アセンブル assemble したり、既知の配列に対して マッピング mapping したりすることで、情報を引き出す。

リードの重ね合わせから得られる一続きの配列をコンティグ contig という (図; Public domain)。


したがって、NGS の技術はコンピューターを使ったバイオインフォマティクスと高い親和性がある。

NGS 関連用語集

リード
Read

シークエンサーで決定した塩基配列のこと。NGS で読まれた配列に対して使われるのがほとんどである。

コンティグ
Contig

複数のリードが連結されてできた一続きの配列。Contig には位置情報は含まれないが、scaffold には含まれる。

リード、コンティグ、scaffold の違い

Scaffold

コンティグ間の位置関係を示したもの。

N50, N60, etc.

得られたコンティグを長い順に並べつつ、その長さを足していく。長さの合計が、総コンティグ長の 50% になったときのコンティグの長さを N50 という。アセンブリの質を示す値であり、高いほどよくアセンブルされたことになる。

総コンティグ長が長くても、短いコンティグが多ければ N50 も短くなる。N60, N80 などの値も使われることがある。

N50の概念図

L50 etc.

N50 と似ている。得られたコンティグを長い順に並べつつ、その長さを足していく。長さの合計が、総コンティグ長の 50% になったときのコンティグの 番号 を L50 という。長い方から 1, 2, ... と番号をつける。

Paired-end

NGS で配列を決定するときに、一つの DNA 断片を片側からのみ読む場合と、両側から読む場合がある。前者を single-read sequencing、後者を paired-end sequencing という。また、これらの方法で得られたリードを single read, paired-end read という。

Paired-end read は、それぞれの配列自体がもつ情報に加えて、2 つの配列間の距離 という情報ももつことになる (3)。この情報は、アセンブルやマッピングの際に有効である。詳細は イルミナの原理と paired-end を参照のこと。

k-mer

ある配列があるとき、長さが k である部分配列を k-mer という。下の図 (5) では ATGG というもとの配列があり、TGG と ATG がその k-mer となる。TGG, ATG ともに長さは 3 なので、この図には 2 つの 3-mer が示されていると言える。



RNA-seq

Transcriptome は転写産物の情報の総体、RNA-seq は実験手法。EST は NGS がメジャーになる前によく使われていた言葉で、transcriptome に相当するが、一般にデータ量は少なく、リードは長い。図は Griffith et al. (Ref. 4)


広告

References

ページ分割のため本文中に引用されていないものがありますが、番号と本文は対応しています。

  1. Amazon link: Pevsner 2016. Bioinformatics and Functional Genomics.
  2. Amazon link: 清水、坊農 2019. 次世代シークエンサーDRY解析教本: 使っているのは第1版ですが、改訂第2版を紹介しています。
  3. Paired-End Read って何ですか? Link: Last access 2020/12/12.
  4. 中村 2021. 次世代シーケンス技術の現状と今後 - 2020. 生物工学会誌 99, 242-245.
  5. By Ytngargar - Own work, CC BY-SA 4.0, Link
  6. Liu et al. 2012a. Comparison of next-generation sequencing systems. J Biomed Biotechnol, 251364.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。