次世代シークエンシング: fastq から発現量マトリクスを作成する

UB3/informatics/bioinformatics/ngs_expression_matrix

このページの最終更新日: 2026/04/09

概要: RNAseq データを発現量にする
マッピング用ソフトウェア

概要: RNAseq データを発現量にする

RNAseq データをそれぞれの遺伝子に map すると、基本的には map されたリードの数 read count が発現量データとなる (1)。

同じ遺伝子の mRNA 量を複数のサンプル間で比較する場合には、このリードカウント read count がそのまま使えるのだが、多くの場合はさらに調整が必要である。

RPK

異なる遺伝子の発現量を比較する場合には、まず遺伝子の長さによる調整が必要である。これは、長い遺伝子ほどリードカウントが多くなってしまうためである。

このバイアスは、リードカウントを遺伝子長で割ることで調整できる。Reads per kilibase (RPK.) という単位が一般に使われる。つまり、遺伝子長の単位がキロベースになるということである。

RPK は、bp で割って 1000 をかける以下の形で定義されることが多い。

RPKM と FPKM

RNA-seq は、実験ごとに総リード数が異なるのが普通である。これは sequencing depth と呼ばれる。異なるサンプル間で mRNA 量を比較するためには、sequencing depth も調整する必要がある。

具体例をあげてみよう。あるサンプルを総リード数 100 万で RNA-seq にかけたとき、ある遺伝子の RPK が 1 万であったとする。つまり、mRNA の 1% がこの遺伝子であるということ。

全く同じサンプルを、総リード数 200 万で解析すると、この遺伝子の RPK は 2 万になる。これが sequencing depth による違いである。

これを調整するためには、RPK をさらに総リード数で割る必要がある。一般には 100 万リードあたりの数で表現するため、総リード数で割って 100 万 = 10⁶ をかけることになる。

これが reads per kilobase per million reads (RPKM) という単位である。

RPKM は、single-read の NGS データで使われる値である。Paird-end では fragments per kilobase per million reads (FPKM) という値が使われる (参考: paired-end とは)。

FKPM の計算方法は、RPKM と同じである。

TPM

更新予定。

マッピング用ソフトウェア

Gene transfer format (GTF) というファイルに、転写産物の構造を表した gene model が含まれている。GTF ファイルは Ensembl などからダウンロードできるが、augustus などで作られる gff から変換することもできる。gffread で OK。アノテーションデータが見つからない生物でも、こうすれば発現量解析が可能。

マッピングに使えるソフト。

bowtie2: できるのかもしれないが、GTF file の情報を取り込んで遺伝子ごとに発現量を推定したことがない。
STAR: 高速であるが、メモリ使用量が大きい。32 GB は欲しく、少し扱いが難しい。
Rsubread: これが良さそう。

「あとがき」で当サイトを参考にしたと書いてくれているラノベです。Kindle Unlimited で読めました。ストーリーと文章が良く、面白かったです。

リンク

References

リードカウントのマトリクスを作成する. Link: Last access 2023/10/15.
Zhao et al., 2020a. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols. RNA 26, 903-909.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。