次世代シークエンシング:
原理、方法、データ解析などの基礎

informatics/bioinformatics/ngs
2018/07/18 更新

  1. 概要: 次世代シークエンシングとは
    • 機械による違い
  2. NCBI のデータベース: SRA
  3. SRA からデータをダウンロードする
    • 複数のデータをダウンロード
    • SRA file もダウンロードされる
    • prefetch コマンド

広告

概要: 次世代シークエンシングとは

機械による違い

NGS の業界では、プラットフォームという言葉がよく使われる。とりあえず各プラットフォームの特徴を表にしておく。

非常に大雑把に言うと、2012 年の時点で比較的リードが長い Roche 454 系と、リードが短い Life Science の SOLiD、Illumina の HiSeq 系に分けられる。


Platform

リード長
解析塩基数/run, 時間

その他特徴など

Roche 454 GS FLX+

up to 1 kb
700 Mb/run in 23 h

Cited from this page. Roche 454 の原理は pyrosequencing である。

Roche 454 GS Jr.

up to 700 b
35 Mb/run in 10 h

Cited from this page. GS FLX の廉価版。

HiSeq 2000

50 b 前後
600 Gb/3-10 days

Ref 6, Illumina 社。

SOLiDv4

50 - 100 b
120 Gb/up to 14 days

Ref 6, Life Sciences 社。


NCBI のデータベース: SRA

NCBI にある次世代シーケンス (NGS) は、Sequence Read Archive (SRA) という。データには以下のような情報が含まれており、PubMed から検索することができる。2015 年の このブログ (1) の記述から少しアップデートされているように思う。

「日本人のデータを探す」という実例を見てみるのがわかりやすいだろう。DDBJ のわかりやすい解説ページ も役に立つ。2

Study

論文情報など。All experiments, All runs などという項目へのリンクもあり、メタデータ的な性格をもつ項目。

Sample

サンプル情報。単一の生物の場合や、メタゲノムの場合などいろいろ。

Library

シーケンサーの種類、genome または transcriptome の別、ライブラリー構築のプロトコールなど。

Experiment attributes

GEO Accession 番号が載っている。

Runs

それぞれの Run ごとに固有のページがあり、そこへのリンクと簡単なサマリーが載っている。


実例1: 日本人のデータを探す

実例として、日本人の NGC データを探す方法を書いておく。


  1. PubMed のドロップダウンメニューを SRA にし、Japanese というキーワードで検索。9,500 件ほどのデータがヒットする (2018 年 2 月時点)。
  2. ページ右側に Top Organisms という項目がある。これを見ると腸内細菌叢のデータも混じっていることがわかるので、Homo sapiens をクリック。これでヒトの配列のみになる。
  3. Illumina Genome Analyzer など、様々なデータが一覧で表示されるはずである。塩基数、データサイズ、Accession などの情報は、この一覧ページでも見ることができる。

Whole genome resequencing of Masaru Tomita というデータに興味をひかれる。情報科学分野から生命科学に転向したメタボローム分野のパイオニア。実名でゲノム配列を登録するなど、さすがにやることが違う。


  1. データの一つをクリックすると、詳細な画面に移動できる。「日本人のデータ」ということを確認したい場合は、Runs の番号をクリックする。各データに 1 つの Accession 番号があり、その中に複数の Run データが番号つきで格納されているという構造になっているようだ。

このように、1 つのデータに 1 Run しか含まれていない場合は、データのサンプル提供者 = Run のサンプル提供者ということになる。以下の 5 をするかわりに、この画面から直接 Sample をクリックしても良い。


  1. Run の番号をクリックしたページに、Biosample という項目があり、ここにサンプル提供者の情報が載っている。リンクをクリックして、サンプル提供者のページへ。
  2. 下のように、biomaterial provider が日本人であることを確認できる。細胞の種類などもここに書かれている。

広告

SRA からデータをダウンロードする

実はこれが一筋縄ではいかない。まず SRA Toolkit というものをインストールし、Mac なら Terminal を使ってコマンドでダウンロードすることになる。

簡単に手順を書いておく。

  1. NCBI SRA Toolkit のページ 3 から、OS に合う SRA Toolkit をダウンロード。
  2. Mac なら sratoolkit.2.8.2-1-mac64.tar.gz などという名前の圧縮ファイルがダウンロードされるので、普通にこれを解凍。
  3. 同名のフォルダができ、このフォルダ内の bin にコマンドの実行ファイルがある。然るべき場所へ移し、パスを通す
  4. データのダウンロードは、fastq-dump というコマンド。データの名前を使って、以下のように実行。

iMac:~ Sam$ fastq-dump DRR048384


これで、上記の日本人データ DRR048384 がダウンロードされる。私の場合はホームフォルダにダウンロードされた。処理が終わると、ターミナルに再びコマンドを入力できる状態になる。


複数のデータをダウンロード

複数データをダウンロードしたい場合は、単に複数の番号をスペース区切りで書けば良い。

iMac:~ Sam$ fastq-dump DRR048384 DRR048385 DRR048386

また、NCBI SRA の検索結果画面で Send to - File - Accession list とすると、検索結果にある Run の番号がリストとして得られる。


SRA file もダウンロードされる

fastq-dump は、実は以下のことを同時に行なっている (4)。

  • もとのデータ形式である .sra を ~/ncbi/public/sra というフォルダに保存する。
  • この sra ファイルを変換し、.fastq ファイルとして ~ に保存する。

不要と判断したら、もとの .sra ファイルは消して構わない。


prefetch コマンド

fastq-dump を使う代わりに prefetch を使うと sra ファイルのダウンロードのみが行われる。これも、スペース区切りにすることで複数のファイルをダウンロードすることができる。たぶん、まとめて sra をダウンロードして、のちに local で fastq-dump をして fastq ファイルを得る方が良い。

sra ファイルは容量を食うので、外付け HDD に直接ダウンロードしたい。以下のように設定する。このページ を参考にした5

  1. vdb-config -i というコマンドで、以下の画面が開く。
  2. Workspace Name という部分のパスを変更。ここに sra ファイルがダウンロードされる。USB 接続の外付け HDD なら、/Volume という部分に来るはず。
  3. 既にデータがあったり、以前の ~/ncbi/public に中身が残っていたりすると flush? と聞かれる。全部空っぽにしてからやった方がいいかもしれない。



広告

コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)



このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. yokaのblog. 次世代シーケンスデータベース (SRA) の見かた. Link: Last access 2018/02/05.
  2. Last access 2018/02/05.
  3. Last access 2018/02/05.
  4. Palmsonntagmorgen. SRAからfastqを取得する. Link: Last access 2018/02/05.
  5. Last access 2018/02/06.
  6. Liu et al. 2012a. Comparison of next-generation sequencing systems. J Biomed Biotechnol, 251364.