決定係数 r2: 定義、意味、算出方法
UB3/statistics/correlation/coefficient_of_determination
このページの最終更新日: 2024/09/30- 概要: r2 のさまざまな定義
- 決定係数の意味
- 切片 = 0 のときの決定係数
広告
概要: 決定係数 r2 のさまざまな定義
回帰分析 において、関数で表されたモデルへの適合度の指標となる r2 などの値を
- r2 には複数の定義が存在する
- r2 の 2 乗というのは便宜的な表現方法であり、2 乗であってもマイナスの値を取ることもできる
少なくとも 8 種類の定義が Kvalseth (1985: 文献 4, 右に引用) に示されている。
Excel のグラフおよび Prismでは 1 の定義が、Open Office や PAST では 5 が、Excel ワークシート、R、SPSS では 7 が使われているようである (1)。
Excel では、グラフとワークシートで異なる定義が使われている (1) ので注意が必要である。
No. 1: 近似曲線と Y の平均値を比較した定義
Prism の解説 (4) を参考に作成。直線回帰の結果、SSreg は必ず算出されるが、これが大きいのか小さいのかを判断するために、何か別の指標が必要であるという考え方をしている。比較のため、全ての Y の平均値を用いた SStot を算出する。
- 近似曲線に対する残差平方和 SSreg を求める。
- 全ての y の平均値に対する残差平方和 SStot を求める。
- R2 = 1 - SSreg/SStot と計算する。
No. 6: 相関係数 ρ を 2 乗した定義
おそらく、最もよく使われる決定係数は相関係数 coefficient of correlation を 2 乗した値であろう。最も一般的なのは 2 つの変数 (その母集団?) が正規分布 normal distribution に従うことを仮定した ピアソンの相関 における相関係数 ρ である。以下の式で表される。
これを 2 乗した値が決定係数になる。
広告
決定係数の意味
決定係数は、
ただし、これは線形モデルへの適合のみを評価することができ、非線形モデルの適合度評価には使えない (1)。
右の図は、適当に作った散布図を線形近似し、式と決定係数を計算したものである。Excel Mac 2011 で作っている。
切片 = 0 にしたのが上の図、何も指定しなかったのが下の図である。
これらのグラフから、以下のようなことがわかる。
- それぞれの点が非常に狭いエリアにまとまっている。X = Y という関係がありそうであるが、同じ X (例えば X = 0.1) に対して複数の Y があるなど、
X から Y を予測することは難しい データである。 - そのために R2 は小さい値をとる。切片 = 0 とした場合には負の値になる。
逆に、Y = X のときは
切片 = 0 のときの決定係数
Prism では、切片 = 0 とした「強制された回帰 constrained regression」のときは R2 を表示しない仕様になっている (1,4)。
Why Prism doesn't report r2 in constrained linear regression |
Prism では、定義 1 で決定係数を計算している。つまり、全ての Y の平均値を R2 を算出するために使う。しかし、
広告
References
- 決定係数R2の誤解: 必ずしも相関の2乗という意味でなく、負にもなるし、非線形回帰には使えない. Link.
- 決定係数とは、重相関係数、自由度調整決定係数 Link/広告付きリンク.
- 柿の種中毒のStatistics入門 決定係数とはなにを決定しているのか. Link.
Kvalseth 1985a . Cautionary note about R2. The American Statitian 39, 279-285.- Prism 5 Regression Guide. Pdf file.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。