相関分析と回帰分析の違い

UB3/statistics/correlation/correlation_regression

このページの最終更新日: 2020/06/03


このページは、相関分析および回帰分析に関する内容の導入的なページです。

  1. 概要: 相関分析と回帰分析の違い
  2. 相関分析とは
  3. 回帰分析とは

広告

概要: 相関分析と回帰分析の違い

相関分析と回帰分析は、どちらの場合も右上がりの散布図がよく使われ、混同しやすい分析である。しかし、両者は明確に異なるものなので、しっかり区別しなければならない。

とりあえず、変数 x と y がある場合について違いを述べると、次のようになる。

  • 相関分析は 2 つの変数 x と y がどれくらい関係しているかを調べる分析である。-1 から +1 の間の値をとる 相関係数 ρ を算出する (1)。
  • 回帰分析は、ある変数 x からもう一つの変数 y の変化を計算するための分析である。x と y の関係式を算出し、グラフに線を引く。

一方、片方の変数から他方の変数を予測するために直線を引くのが回帰 regression である。

相関分析と回帰分析の目的は根本的に異なっており、同時に行うことはありえないとされている (1)が、相関分析ののちに、2 つの変数の関係を調べるために回帰分析を行うことはあっても良いはずである。

相関分析、回帰分析とも、まずは両変数の散布図を作成するのが第一歩である。


相関分析とは

相関 correlation には、変数が正規分布することを想定したパラメトリックな相関と、正規分布を想定しないノンパラメトリックな相関がある。

パラメトリックな相関では、ピアソンの相関 Pearson's correlation およびピアソンの相関係数 ρ が一般に使われる。

  • 強い相関と弱い相関があり、その強さは -1 から +1 の間の値をとる相関係数 ρ で表される。相関分析で得られるのは、この無次元の ρ であり、式で表されるような直線は得られない。
  • 右上がりの正の相関 (0 < ρ < 1) と、右下がりの負の相関 (-1 < ρ < 0) がある。相関係数 ρ の符号が相関の正負を示す。
  • 2 つの変数の間に因果関係を想定してはいけない。

青い円の大きさが相関の程度を示すことになる。このような図で線を引っ張って相関を語っているグラフもあるが、それは回帰直線なので、厳密には正しくない (相関分析と回帰分析をごっちゃにしている)。

ノンパラメトリックな相関分析には、スピアマンの相関 Spearman's correlation またはケンドール・タウの相関検定 (参考ページ) がある。


広告

回帰 regression とは

回帰とは 片方の変数 (x) から他方 (y) を予測する方法を探る という分析手法であり、通常は両変数の関係性が y = ax + b などの式で与えられる。


  • 通常は、変数 x によって変数 y の変化を予測することになる。x が一つならば単回帰分析、複数ならば重回帰分析である。
  • 青い直線を示す式が x と y の関係性を表すことになる。

x と y はさまざまな名前で呼ばれる。

x は独立変数 independent variable のほか、説明変数 explanatory variable、予測変数 predictor variable とも呼ばれる。連続変数であることが一般的だが、名義尺度 しか持たないカテゴリー変数でも OK。

y は応答変数 response variable (目的変数、反応変数) という名前のほか、従属変数 dependent variable、基準変数 criterion variable、非説明変数 explained variable とも呼ばれる。


回帰分析メモ

  • 線形回帰が適当でない場合には、II 型の回帰分析というものがある (Ref)。Standard major axis regression (SMA) または reduced major axis regression (RMA) とも呼ばれる。線形回帰は X や Y に誤差がある場合には適当でなく、X と Y の両方が測定値である場合などには II 型が適している。
  • 重回帰では、説明因子の間に相関があると、多重共線性といって回帰係数が大きく不安定になる問題が生じる。これを解決する方法はいくつかある。
  • 主成分回帰 PCR: 主成分分析のようなアイディア。説明変数を主成分に変換し、それらを回帰する。主成分は互いに独立なので、多重共線性の問題は生じない。
  • 部分最小二乗回帰 PLS: 説明変数を互いに独立な潜在変数に投影し、それらを回帰する。
  • 正則化回帰: 上の 2 つのように説明変数を減らす必要がない。データにノイズを入れて overfitting を回避しつつ、回帰係数が大きくなることに対してペナルティを与える (参考)。
  • 交差検証 cross-validation: 交差確認とも言う。標本データを分割し、まずその一部を解析。残る部分でその妥当性を検証するという手法を意味する。
  • 線形回帰の条件: いくつかの条件があり、それを判定する方法もある (参考)。

因果関係と相関関係・メモ

いずれ独自のページを作る。

「相関関係は因果関係を意味しない」はよく言われることで、これ自体に文句はないのだが、「因果関係とは何か」についてよく考えると、だんだんわからなくなってくる。

たぶん、回帰分析で因果関係がわかるのではなく、回帰分析を行う際に、何を要因とするかを決定していなければならない。何を要因とするかはどうやって決まるのか? もう少し調べて明文化したいところ。


広告

References

  1. 統計解析 Q & A -相関と回帰分析- Link: Last access 2020/05/11.
  2. Shannon lab 統計データ処理/分析. Link.
  3. 臨床統計 まるごと図解.

生存時間解析 について平易に書いた数少ない解説書。

統計のなかでも、生存時間解析はそれだけで 1 冊の本になるほど複雑なわりに、ANOVAや t 検定などと違い使用頻度が低いため、とっつきにくい検定である。

この本では、とくに Kalpan-Meier 生存曲線、Log-rank 検定、Cox 比例ハザードモデルを重点的に解説しているが、prospective study と retrospective study, 選択バイアス、プラセボなど、臨床統計実験で重要な概念についても詳しい説明がある。臨床でない、基礎生物学の実験ではあまり意識しない重要な点であるので押さえておきたい。


コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment

2020-05-13 11:20:26.602708

ライス

つまり、相関係数を計算しつつ直線を書くのは良くないんですね。勉強になります!検定についてもいつか更新してくれると嬉しいです!