R による KEGG エンリッチメント解析
UB3/informatics/r/kegg_enrichment
このページの最終更新日: 2025/10/20広告
エンリッチメント解析とは
KEGG のデータを扱う上で難しいのが「エンリッチメント」enrichment という概念およびエンリッチメント解析である。
エンリッチメント解析は、ある遺伝子リストに対して
- 2 つのヒト集団 A, B で遺伝子発現パターンを比較し、有意に発現量が異なる遺伝子が 1000 個得られたとする。
- 1000 個の遺伝子のうち、100 個が糖質代謝に関わる遺伝子であった (そのような KEGG pathway に割り当てられていた)。全体の 10% である。この結果には意味があるか?
- これは、ヒトの遺伝子中にどれだけ糖質代謝関連の遺伝子があるかという話になる。
- ヒトの遺伝子を仮に 25000 個として、2500 個 (10%) が糖質代謝に関わっていると仮定する。この場合、ランダムに遺伝子を 1000 個選んでも、10% は「糖質代謝に関わる遺伝子」ということになる。
- よって、A と B で差がある遺伝子 1000 個中、「10% が糖質代謝に関わる遺伝子」であるということに、ほとんど意味はないと考えられる。
- もし、「20% が糖質代謝に関わる遺伝子」であった場合、全遺伝子での割合に比べて
2 倍濃縮されている ことになる。この結果から、「A と B は糖質代謝に違いがある」と推察するのは合理的であろう。 - エンリッチメント解析とは、統計的にこの「濃縮度」を評価する解析である。
広告
「あとがき」で当サイトを参考にしたと書いてくれているラノベです。Kindle Unlimited で読めました。ストーリーと文章が良く、面白かったです。
R パッケージメモ
とりあえず、使えそうなパッケージを羅列していく。
clusterProfiler
R の clusterProfiler パッケージが便利である。オリジナルは 2012 年 (1)、2022 年では version 4 が使われている。インストールは Bioconductor から。BiocManager::install("clusterProfiler") とする。
この論文 では、KO relative abundance を R の clustig パッケージで解析したと書かれている。
enrichKEGG() 関数は、KEGG pathway over-representation analysis (ORA) を行うための関数である (参考)。スクリプトの基本形は、以下のようなものである。
スクリプトを実行した時点での KEGG データベースを対象に解析するので、日時が違えば異なる結果が出てくることもある。
KEGG pathway を可視化する R のパッケージ、pathview。
生データから gene abundance などを出してくれる FMAP。
FMAP can take raw sequence data and generate the following output: (i) an alignment of reads to a reference database, (ii) the abundances of gene families, and (iii) enriched operons and pathways from the differentially abundant (DA) gene analysis.
このページ で解説されている ReactomePA も良さそう。
広告
References
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。
