KEGG: 主に論文の図の作り方

UB3/informatics/bioinformatics/kegg

このページの最終更新日: 2025/01/05

  1. 概要: KEGG とは
  2. R パッケージメモ
  3. その他メモ

広告

概要: KEGG とは

KEGG は Kyoto Encyclopedia of Genes and Genomes の略であり、遺伝子やタンパク質の関係をデータベース化したものである。1955 年に、京都大学の金久實らによって始められ、世界中で広く用いられている。

代表的な KEGG pathway は、例えば以下の図のようなものである。Alzheimer's disease というパスウェイ (5)。

KEGG アルツハイマー病のpathway

KEGG orthology (KO) とは

KEGG orthology (KEGG オルソロジー) とは、ortholog に関連する KEGG のデータベースの一つで、KEGG pathtay の各ノードに対応した ortholog を定義したものである。もう少しわかりやすく言うと、遺伝子の一つ一つに KO1234 のような番号が付けられていて、遺伝子と KEGG pathway を対応させやすくしたもの。

例えば KO1601 はピルビン酸デヒドロゲナーゼの遺伝子であり、これは map00010 の Glycolysis / Gluconeogenesism、map00020 の Citrate cycle、map00620 の Pyruvate metabolism などに属している。

KO と map は 1:1 対応ではないことに注意。一つの遺伝子は、基本的に複数の map に属している。

Seq2Fun version2 パッケージのページに、KO に関する以下のような記述があった。このパッケージは fastq file を input とするようだ。

タンパク質コード遺伝子の一部しか KO が割り振られていない。例えばヒトでは ~ 19,648 の protein-coding genes 中、14,964 (76.16%) のみ。ゼブラフィッシュでは ~ 26,584 遺伝子中 16,322 (61.40%) のみ。

Pathways まで割り振られている遺伝子はさらに少ない。Gene annotation も限られている。


KEGG enrichment とは

KEGG のデータを扱う上で難しいのが「エンリッチメント」enrichment という概念およびエンリッチメント解析である。

エンリッチメント解析は、ある遺伝子リストに対して 濃縮度 を測る解析である。文献 6 の例がわかりやすいので、参考にしつつ例を示す。

  • 2 つのヒト集団 A, B で遺伝子発現パターンを比較し、有意に発現量が異なる遺伝子が 1000 個得られたとする。
  • 1000 個の遺伝子のうち、100 個が糖質代謝に関わる遺伝子であった (そのような KEGG pathway に割り当てられていた)。全体の 10% である。この結果には意味があるか?
  • これは、ヒトの遺伝子中にどれだけ糖質代謝関連の遺伝子があるかという話になる。
  • ヒトの遺伝子を仮に 25000 個として、2500 個 (10%) が糖質代謝に関わっていると仮定する。この場合、ランダムに遺伝子を 1000 個選んでも、10% は「糖質代謝に関わる遺伝子」ということになる。
  • よって、A と B で差がある遺伝子 1000 個中、「10% が糖質代謝に関わる遺伝子」であるということに、ほとんど意味はないと考えられる。
  • もし、「20% が糖質代謝に関わる遺伝子」であった場合、全遺伝子での割合に比べて 2 倍濃縮されている ことになる。この結果から、「A と B は糖質代謝に違いがある」と推察するのは合理的であろう。
  • エンリッチメント解析とは、統計的にこの「濃縮度」を評価する解析である。


R パッケージメモ

とりあえず、使えそうなパッケージを羅列していく。


R の clusterProfiler パッケージが便利である。オリジナルは 2012 年 (1)、2022 年では version 4 が使われている。インストールは Bioconductor から。BiocManager::install("clusterProfiler") とする。

この論文 では、KO relative abundance を R の clustig パッケージで解析したと書かれている。


KEGG pathway を可視化する R のパッケージ、pathview


生データから gene abundance などを出してくれる FMAP。

FMAP can take raw sequence data and generate the following output: (i) an alignment of reads to a reference database, (ii) the abundances of gene families, and (iii) enriched operons and pathways from the differentially abundant (DA) gene analysis.


このページ で解説されている ReactomePA も良さそう。

その他メモ

Microbiome に関する情報も、とりあえずここに置いておく。

MicrobiomeAnalyst パッケージの websiteGitHub。詳しい使い方は文献3,4 あたり。


広告

References

  1. Yu et al., 2012a. Yu G, Wang L, Han Y, He Q (2012). clusterProfiler: an R package for comparing biological themes among gene clusters.” OMICS: A Journal of Integrative Biology, 16, 284-287.
  2. Wu et al. 2021a. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data. Innovation 2, 100141.
  3. Dhariwal et al., 2017a. MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data. Nucleic Acids Res 3, W180-W188.
  4. Chong et al., 2020a. Using MicrobiomeAnalyst for comprehensive statistical, functional, and meta-analysis of microbiome data. Nat Protoc 15, 799-821.
  5. Seo et al., 2015a. Development of network analysis and visualization system for KEGG pathways. Symmetry 7, 1275-1288.
  6. エンリッチメント解析の基本. Link: Last access 2022/06/16.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。