次世代シークエンシング: fastq から発現量マトリクスを作成する
UB3/informatics/bioinformatics/ngs_expression_matrix
このページの最終更新日: 2024/09/30広告
概要: RNAseq データを発現量にする
RNAseq データをそれぞれの遺伝子に map すると、基本的には map されたリードの数 read count が発現量データとなる (1)。
同じ遺伝子の mRNA 量を複数のサンプル間で比較する場合には、このリードカウント read count がそのまま使えるのだが、多くの場合はさらに調整が必要である。
RPK
異なる遺伝子の発現量を比較する場合には、まず
このバイアスは、リードカウントを遺伝子長で割ることで調整できる。Reads per kilibase (
RPK は、bp で割って 1000 をかける以下の形で定義されることが多い。
RPKM と FPKM
RNA-seq は、実験ごとに総リード数が異なるのが普通である。これは sequencing depth と呼ばれる。異なるサンプル間で mRNA 量を比較するためには、sequencing depth も調整する必要がある。
具体例をあげてみよう。あるサンプルを総リード数 100 万で RNA-seq にかけたとき、ある遺伝子の RPK が 1 万であったとする。つまり、mRNA の 1% がこの遺伝子であるということ。
全く同じサンプルを、総リード数 200 万で解析すると、この遺伝子の RPK は 2 万になる。これが sequencing depth による違いである。
これを調整するためには、RPK をさらに総リード数で割る必要がある。一般には 100 万リードあたりの数で表現するため、総リード数で割って 100 万 = 106 をかけることになる。
これが reads per kilobase per million reads (
RPKM は、single-read の NGS データで使われる値である。Paird-end では fragments per kilobase per million reads (
FKPM の計算方法は、RPKM と同じである。
TPM
更新予定。
マッピング用ソフトウェア
Gene transfer format (GTF) というファイルに、転写産物の構造を表した gene model が含まれている。GTF ファイルは Ensembl などからダウンロードできるが、augustus などで作られる gff から変換することもできる。gffread で OK。アノテーションデータが見つからない生物でも、こうすれば発現量解析が可能。
マッピングに使えるソフト。
- bowtie2: できるのかもしれないが、GTF file の情報を取り込んで遺伝子ごとに発現量を推定したことがない。
- STAR: 高速であるが、メモリ使用量が大きい。32 GB は欲しく、少し扱いが難しい。
- Rsubread: これが良さそう。
広告
References
- リードカウントのマトリクスを作成する. Link: Last access 2023/10/15.
Zhao et al., 2020a. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols. RNA 26, 903-909.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。