決定係数 r2: 定義、意味、算出方法

statistics/correlation/coefficient_of_determination
2018/03/12 更新

  1. 概要: r2 とは
  2. 決定係数の意味
  3. 切片 = 0 のときの決定係数

広告

概要: 決定係数 r2 とは

Excel などで散布図を書くとよく使う r2 などの値を決定係数 coefficient of determination という。重要な点は、

  • r2 には複数の定義が存在する
  • r2 の 2 乗というのは便宜的な表現方法であり、2 乗であってもマイナスの値を取ることもできる

の 2 点である (1)。

少なくとも 8 種類の定義が Kvalseth (1985: 文献 4, 右に引用) に示されている。

Excel のグラフおよび Prismでは 1 の定義が、Open Office や PAST では 5 が、Excel ワークシート、R、SPSS では 7 が使われているようである (1)。

Excel では、グラフとワークシートで異なる定義が使われている (1) ので注意が必要である。


No. 1: 近似曲線と Y の平均値を比較した定義

Prism の解説 (4) を参考に作成。直線回帰の結果、SSreg は必ず算出されるが、これが大きいのか小さいのかを判断するために、何か別の指標が必要であるという考え方をしている。比較のため、全ての Y の平均値を用いた SStot を算出する。

  1. 近似曲線に対する残差平方和 SSreg を求める。
  2. 全ての y の平均値に対する残差平方和 SStot を求める。
  3. R2 = 1 - SSreg/SStot と計算する。



No. 6: 相関係数 ρ を 2 乗した定義

おそらく、最もよく使われる決定係数は相関係数 coefficient of correlation を 2 乗した値であろう。最も一般的なのは 2 つの変数 (その母集団?) が正規分布 normal distribution に従うことを仮定した ピアソンの相関 における相関係数 ρ である。以下の式で表される。

Pearson's coefficient of correlation

これを 2 乗した値が決定係数になる。



広告

決定係数の意味

決定係数は、回帰モデルの適合度を表す指標 である (1)。つまり、X の値からどの程度 Y を予測できるかという指標である。

ただし、これは線形モデルへの適合のみを評価することができ、非線形モデルの適合度評価には使えない (1)。

右の図は、適当に作った散布図を線形近似し、式と決定係数を計算したものである。Excel Mac 2011 で作っている。

切片 = 0 にしたのが上の図、何も指定しなかったのが下の図である。





これらのグラフから、以下のようなことがわかる。

  • それぞれの点が非常に狭いエリアにまとまっている。X = Y という関係がありそうであるが、同じ X (例えば X = 0.1) に対して複数の Y があるなど、X から Y を予測することは難しい データである。
  • そのために R2 は小さい値をとる。切片 = 0 とした場合には負の値になる。

逆に、Y = X のときは X の値から Y を完璧に予測することができる ため、決定係数は 1 となる。


切片 = 0 のときの決定係数

Prism では、切片 = 0 とした「強制された回帰 constrained regression」のときは R2 を表示しない仕様になっている (1,4)。

Why Prism doesn't report r2 in constrained linear regression

Prism does not report r2 when you force the line through the origin (or any other point), because the calculations would be ambiguous.

Prism では、定義 1 で決定係数を計算している。つまり、全ての Y の平均値を R2 を算出するために使う。しかし、この直線は原点を通らないため、比較対象として不適切である というのが理由のようだ。


広告

コメント欄

一言コメントをどうぞ! (100 字まで)

このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. 決定係数R2の誤解: 必ずしも相関の2乗という意味でなく、負にもなるし、非線形回帰には使えない. Link.
  2. 決定係数とは、重相関係数、自由度調整決定係数 Link/広告付きリンク.
  3. 柿の種中毒のStatistics入門 決定係数とはなにを決定しているのか. Link/広告付きリンク.
  4. Kvalseth 1985a. Cautionary note about R2. The American Statitian 39, 279-285.
  5. Prism 5 Regression Guide. Pdf file.