主成分分析: Principal Component Analysis, PCA

UB3/statistics/pca/pca

このページの最終更新日: 2022/07/26

  1. 概要: 主成分分析とは
  2. 寄与率
  3. 主成分分析を論文に載せる際の注意点

広告

概要: 主成分分析とは

主成分分析 (principal component analysis; PCA) とは、データに含まれる変数とは異なる指標を設定し、変数間の関係を把握しやすくするための統計手法である。関連する手法に 主座標分析 PCoA がある。

身体検査の例 (1)がわかりやすかったので、これを例に説明する。

身長と体重がデータとしてあるとき、おそらく両者は図のように正の相関 correlation を示すだろう。

主成分分析

この例のようにデータが 2 つだけならわかりやすいのだが、以下のように多くのデータがあるとどうだろう?

  • 身長
  • 体重
  • 顔の大きさ
  • 手の大きさ
  • 足の長さ

5 つの数字があるので、これは「5 次元データ」である。これらの数値間の関係を一つづつ検証していくのは複雑で手間がかかる。

しかし、これらのデータに、「体の大きさ」という 新たな指標を導入すると、変数間の関係や特徴を把握しやすくなる

つまり、データの解釈が「身長と体重が相関する」「身長と足の長さが相関する」などから「でかい人は身長も体重も大きく、足も長い」に変わるのである。

これが主成分分析の基本的な考え方で、この例では「体の大きさ」が 第一主成分 (PC1) と呼ばれる (1)。

もともと身長・体重など複数の指標で表されていたデータを「体の大きさ」という指標で代表させるため、主成分分析によって 5 次元のデータを 1 次元のデータに変換したと考えることができる。ただし、これに伴って情報は損失している。

文献 1 では「肥満の程度」というもう一つの新たな指標 (第二主成分)を考えている。この場合はもとの変数が 2 つ、主成分分析によって生じた新たな指標が 1 or 2 個だが、多くの場合もとの変数はもっと多く、それを 2 つの新しい指標で代表させることが多い。

主成分は、各変数の線形結合 として与えられる (1)。


広告

寄与率

新たに作られた主成分 (新しい指標)は、もとのデータをある程度表現しているはずである。この程度を表すものが 寄与率 contribution rate である。

主成分分析を論文に載せる際の注意点

一般には、スコアプロットとローディングプロットの両方を載せる必要がある。図は文献 2 より。

スコアプロット

主成分分析

ローディングプロット

主成分分析のローディングプロット
広告

References

  1. 加納 2002a. 主成分分析 初心者向けテキスト. Pdf file.
  2. Yao et al., 2015a. Discriminatory Components retracing strategy for monitoring the preparation procedure of Chinese patent medicines by fingerprint and chemometric analysis. PLoS ONE 10, e0121366.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment