次世代シークエンシング:
データベースの見方、ダウンロード方法
UB3/informatics/bioinformatics/ngs_sra
このページの最終更新日: 2024/09/30- fastq ファイルのパラメーター
- Trimmomatic: アダプター・プライマー配列の除去
- クオリティチェック
- FastQC
- astp
広告
fastq ファイルのパラメーター
次世代シークエンス (NGS) のデータは、通常は fastq という形式をもつ。NGS データベースの見方 のページに従い、fastq-dump でダウンロードできる。
また、次世代シークエンサーのアウトプットも fastq ファイルである。
fastq ファイルが手元にあるとき、
Trimmomatic: アダプター・プライマー配列の除去
NGS データの生データには、アダプターやプライマーの配列がついているため、これを除去する必要がある。Trimmomatic はよく使われるツールで、以下のようなメリットがある (1)。GitHub で公開されている。
- java で書かれていて zip ファイルが配布されているので、実行が簡単。prottest と似ている。
- シングルエンド、ペアエンドの両方に対応している。gzip, bzip2 などで圧縮されている fastq も処理できる。
クオリティチェック
FastQC
Fastq ファイルのクオリティチェックは、FastQC というソフトウェアが便利なようである (2)。2022 年 4 月、Babraham Institute からはダウンロードが途中で動かなくなってしまう問題があったが、他のミラーサイトからダウンロードでき、Linux 版が動いている。
アダプター配列は、別に用意した fasta ファイルに含まれるものを参照する形になっている。これも java で書かれているので、実行は簡単らしいが、2022 年 4 月時点で古い v10 はなぜか動かなかった。このときのバージョンは以下。fastp をすぐに試したので、java アップデートなどの検討はしていない。
- MacOS Monterey v12.2
- java version "1.8.0_321"
- Java (TM) SE Runtime Environment (build 1.8.0_321-b07)
- Java HotSpot(TM) 64-Bit Server VM (build 25.321-b07, mixed mode)
fastp
GitHub fastq を参照のこと。Bioconda で一発インストール可能。ペアリードなら、配列の比較からアダプターも自動で検出してくれるとのことで、その精度が高いなら FastQC よりも便利そうだ。
このページ では、fastq は「本ツールはFASTQC + Cutadapt + Trimmomatic + AfterQCのほとんどの機能をカバーしており、いずれよりも2〜5倍高速である」と書かれている。
fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz #Paired end data
fastp --version でバージョンをチェックできる。Ubuntu へのインストールは bioconda から可能。conda install -c bioconda fastp で OK (2022 年 4 月)。
広告
References
- FASTQ クリーニングツール Trimmomatic. Link: Last access 2022/04/16.
- FASTQ クオリティコントロール FastQC. Link: Last access 2022/04/16.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。