次世代シークエンシング:
データベースの見方、ダウンロード方法

UB3/informatics/bioinformatics/ngs_sra

このページの最終更新日: 2023/02/14

  1. fastq ファイルのパラメーター
  2. Trimmomatic: アダプター・プライマー配列の除去
  3. クオリティチェック
    • FastQC
    • astp

広告

fastq ファイルのパラメーター

次世代シークエンス (NGS) のデータは、通常は fastq という形式をもつ。NGS データベースの見方 のページに従い、fastq-dump でダウンロードできる。

また、次世代シークエンサーのアウトプットも fastq ファイルである。

fastq ファイルが手元にあるとき、その品質のチェック は重要である。まずは、品質を示すパラメーターを表にしておく。


Phred クオリティスコア

Q スコア

配列の品質を表す一般的な指標。アセンブリングの際にも重要となる。

Phred はスコアを算出するプログラムの名前であり、イルミナの technocal note (2) によると、Phred quality score と Q スコアは同じもののようだ。

Q スコアは、エラーの確率 P から Q = - 10 log10 P で求める。したがって、シンプルに Q20 は 2 桁 つまり 99%、Q30ならば 3 桁で 99.9% の正確性ということになる。

50 は非常に高く、99.999% の確率でその塩基は正しい。10 だと 90% の確率。塩基が N の場合は、Phred クオリティスコアはつかない。

Phredスコア

Q20スコア (%)

Q30スコア (%)

上記の Q スコアを使って、fastq ファイルなどの NGS アウトプットファイルを評価することが多い。

例えば、95% の塩基が Q20 以上のスコアをもっていれば、Q20 = 95% のように表す。当然、Q30 (%) は Q20 (%) よりも低くなる。

Trimmomatic: アダプター・プライマー配列の除去

NGS データの生データには、アダプターやプライマーの配列がついているため、これを除去する必要がある。Trimmomatic はよく使われるツールで、以下のようなメリットがある (1)。GitHub で公開されている。

  • java で書かれていて zip ファイルが配布されているので、実行が簡単。prottest と似ている。
  • シングルエンド、ペアエンドの両方に対応している。gzip, bzip2 などで圧縮されている fastq も処理できる。

クオリティチェック

FastQC

Fastq ファイルのクオリティチェックは、FastQC というソフトウェアが便利なようである (2)。2022 年 4 月、Babraham Institute からはダウンロードが途中で動かなくなってしまう問題があったが、他のミラーサイトからダウンロードでき、Linux 版が動いている。

アダプター配列は、別に用意した fasta ファイルに含まれるものを参照する形になっている。これも java で書かれているので、実行は簡単らしいが、2022 年 4 月時点で古い v10 はなぜか動かなかった。このときのバージョンは以下。fastp をすぐに試したので、java アップデートなどの検討はしていない。

  • MacOS Monterey v12.2
  • java version "1.8.0_321"
  • Java (TM) SE Runtime Environment (build 1.8.0_321-b07)
  • Java HotSpot(TM) 64-Bit Server VM (build 25.321-b07, mixed mode)

fastp

GitHub fastq を参照のこと。Bioconda で一発インストール可能。ペアリードなら、配列の比較からアダプターも自動で検出してくれるとのことで、その精度が高いなら FastQC よりも便利そうだ。

このページ では、fastq は「本ツールはFASTQC + Cutadapt + Trimmomatic + AfterQCのほとんどの機能をカバーしており、いずれよりも2〜5倍高速である」と書かれている。

fastp -i in.fq -o out.fq #Single end data

fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz #Paired end data

fastp --version でバージョンをチェックできる。Ubuntu へのインストールは bioconda から可能。conda install -c bioconda fastp で OK (2022 年 4 月)。


広告

References

  1. FASTQ クリーニングツール Trimmomatic. Link: Last access 2022/04/16.
  2. FASTQ クオリティコントロール FastQC. Link: Last access 2022/04/16.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。