次世代シークエンシング: fastq から発現量マトリクスを作成する

UB3/informatics/bioinformatics/ngs_expression_matrix

このページの最終更新日: 2024/02/07

  1. 概要: RNAseq データを発現量にする
  2. マッピング用ソフトウェア

広告

概要: RNAseq データを発現量にする

RNAseq データをそれぞれの遺伝子に map すると、基本的には map されたリードの数 read count が発現量データとなる (1)。

同じ遺伝子の mRNA 量を複数のサンプル間で比較する場合には、このリードカウント read count がそのまま使えるのだが、多くの場合はさらに調整が必要である。

RPK

異なる遺伝子の発現量を比較する場合には、まず 遺伝子の長さによる調整 が必要である。これは、長い遺伝子ほどリードカウントが多くなってしまうためである。

このバイアスは、リードカウントを遺伝子長で割ることで調整できる。Reads per kilibase (RPK.) という単位が一般に使われる。つまり、遺伝子長の単位がキロベースになるということである。

RPK は、bp で割って 1000 をかける以下の形で定義されることが多い。

RPK計算式

RPKM と FPKM

RNA-seq は、実験ごとに総リード数が異なるのが普通である。これは sequencing depth と呼ばれる。異なるサンプル間で mRNA 量を比較するためには、sequencing depth も調整する必要がある。

具体例をあげてみよう。あるサンプルを総リード数 100 万で RNA-seq にかけたとき、ある遺伝子の RPK が 1 万であったとする。つまり、mRNA の 1% がこの遺伝子であるということ。

全く同じサンプルを、総リード数 200 万で解析すると、この遺伝子の RPK は 2 万になる。これが sequencing depth による違いである。

これを調整するためには、RPK をさらに総リード数で割る必要がある。一般には 100 万リードあたりの数で表現するため、総リード数で割って 100 万 = 106 をかけることになる。

これが reads per kilobase per million reads (RPKM) という単位である。

RPKM計算式

RPKM は、single-read の NGS データで使われる値である。Paird-end では fragments per kilobase per million reads (FPKM) という値が使われる (参考: paired-end とは)。

FKPM の計算方法は、RPKM と同じである。

FPKM計算式

TPM

更新予定。

マッピング用ソフトウェア

Gene transfer format (GTF) というファイルに、転写産物の構造を表した gene model が含まれている。GTF ファイルは Ensembl などからダウンロードできるが、augustus などで作られる gff から変換することもできる。gffread で OK。アノテーションデータが見つからない生物でも、こうすれば発現量解析が可能。

マッピングに使えるソフト。

  • bowtie2: できるのかもしれないが、GTF file の情報を取り込んで遺伝子ごとに発現量を推定したことがない。
  • STAR: 高速であるが、メモリ使用量が大きい。32 GB は欲しく、少し扱いが難しい。
  • Rsubread: これが良さそう。

広告

References

  1. リードカウントのマトリクスを作成する. Link: Last access 2023/10/15.
  2. Zhao et al., 2020a. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols. RNA 26, 903-909.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。