次世代シークエンシング: 概要と用語集

UB3/informatics/bioinformatics/ngs

このページの最終更新日: 2021/07/08

  1. 概要: 次世代シークエンシングとは
    • 機械による違い
  2. NGS 関連用語集

広告

概要: 次世代シークエンシングとは

次世代シークエンシング (Next generation sequencing, NGS) とは、並列にシークエンスを行うことで高いスループットを達成した一連のシークエンシング技術である。

アウトプットは、50 bp から 1 kbp 程度までの塩基配列 リード read である。これを長い配列に アセンブル assemble したり、既知の配列に対して マッピング mapping したりすることで、情報を引き出す。

リードの重ね合わせから得られる一続きの配列をコンティグ contig という (図; Public domain)。


したがって、NGS の技術はコンピューターを使ったバイオインフォマティクスと高い親和性がある。


機械による違い

NGS は、上記のようにハイスループットを達成したシークエンシング技術の総称であるため、複数の原理がある。

非常に大雑把に言うと、2016 年ごろの時点で比較的リードが長い Roche 454 系と、リードが短い Life Science の SOLiD、Illumina の HiSeq 系に分けられる。

以下の表に概要をまとめた。


Platform

リード長
解析塩基数/run, 時間

その他特徴など

Roche 454 GS FLX+

up to 1 kb
700 Mb/run in 23 h

Cited from this page. Roche 454 の原理は pyrosequencing である。

Roche 454 GS Jr.

up to 700 b
35 Mb/run in 10 h

Cited from this page. GS FLX の廉価版。

HiSeq 2000

50 b 前後
600 Gb/3-10 days

Ref 6, Illumina 社。

SOLiDv4

50 - 100 b
120 Gb/up to 14 days

Ref 6, Life Sciences 社。


広告

NGS 関連用語集

リード
Read

シークエンサーで決定した塩基配列のこと。NGS で読まれた配列に対して使われるのがほとんどである。

コンティグ
Contig

複数のリードが連結されてできた一続きの配列。

  • コンティグの N50: 得られたコンティグを長い順に並べてつつ、その長さを足していく。長さの合計が、総コンティグ長の 50% になったときのコンティグの長さを N50 という。アセンブリの質を示す値であり、高いほどよくアセンブルされたことになる。総コンティグ長が長くても、短いコンティグが多ければ N50 も短くなる。N60, N80 などの値も使われることがある。
  • コンティグの depth:

Scaffold

コンティグ間の位置関係を示したもの。

Paired-end

NGS で配列を決定するときに、一つの DNA 断片を片側からのみ読む場合と、両側から読む場合がある。前者を single-read sequencing、後者を paired-end sequencing という。また、これらの方法で得られたリードを single read, paired-end read という。

Paired-end read は、それぞれの配列自体がもつ情報に加えて、2 つの配列間の距離 という情報ももつことになる (3)。この情報は、アセンブルやマッピングの際に有効である。詳細は イルミナの原理と paired-end を参照のこと。

k-mer

ある配列があるとき、長さが k である部分配列を k-mer という。下の図 (5) では ATGG というもとの配列があり、TGG と ATG がその k-mer となる。TGG, ATG ともに長さは 3 なので、この図には 2 つの 3-mer が示されていると言える。



RNA-seq

Transcriptome は転写産物の情報の総体、RNA-seq は実験手法。EST は NGS がメジャーになる前によく使われていた言葉で、transcriptome に相当するが、一般にデータ量は少なく、リードは長い。図は Griffith et al. (Ref. 4)


広告

References

ページ分割のため本文中に引用されていないものがありますが、番号と本文は対応しています。

  1. Amazon link: Pevsner 2016. Bioinformatics and Functional Genomics.
  2. Amazon link: 清水、坊農 2019. 次世代シークエンサーDRY解析教本: 使っているのは第1版ですが、改訂第2版を紹介しています。
  3. Paired-End Read って何ですか? Link: Last access 2020/12/12.
  4. Griffith et al., 2015a. Informatics for RNA sequencing: A web resource for analysis on the cloud. Plos Comput Biol 11, e1004393.
  5. By Ytngargar - Own work, CC BY-SA 4.0, Link
  6. Liu et al. 2012a. Comparison of next-generation sequencing systems. J Biomed Biotechnol, 251364.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment