最小二乗法による線形回帰: 原理、注意点など

UB3/statistics/correlation/regression_ols

このページの最終更新日: 2025/01/05

このページでは、線形回帰と最小二乗法の原理や、適用する際に考えるべき点についてまとめる。実際の分析は、R lm 関数を用いた回帰分析のページに移動した。

概要: 線形回帰とは
最小二乗法とは
線形回帰の実際
- カテゴリー化
- 対数変換
- 因果推論

概要: 線形回帰とは

相関と回帰の違いのページで述べたように、回帰とは片方の変数 (x) から他方 (y) を予測する方法を探るという分析手法であり、通常は両変数の関係性が y = ax + b などの式で与えられる。

通常は、変数 x によって変数 y の変化を予測することになる。x が一つならば単回帰分析、複数ならば重回帰分析である。
青い直線を示す式が x と y の関係性を表すことになる。

x と y はさまざまな名前で呼ばれる。

x は独立変数 independent variable のほか、説明変数 explanatory variable、予測変数 predictor variable とも呼ばれる。連続変数であることが一般的だが、名義尺度しか持たないカテゴリー変数でも OK。

y は応答変数 response variable (目的変数、反応変数) という名前のほか、従属変数 dependent variable、基準変数 criterion variable、非説明変数 explained variable とも呼ばれる。

最小二乗法とは

線形回帰では、x と y の関係を示す直線が使われる。「データを fit させる」という。上の図の青い線であり、この直線は回帰直線と呼ばれる。回帰直線には、以下のような特徴がある。

全てのデータポイントが直線上に乗っていれば、話は単純である。全ての点を通る直線が回帰直線となり、y は x によって 100% 予測可能であるということになる。
しかし実際にそうなることはほとんどなく、観測値がばらつく。そこで、全てのデータにできるだけ近い線が回帰直線ということになる。

最小二乗法 ordinary least squares (OLS) method は、この「データにできるだけ近い」直線を得るために、近似 (フィット) の具合を評価する方法である。

最小二乗法のポイントは、回帰直線とデータの差 (誤差) を二乗して足し合わせた合計が最小になることである。直線へのフィットだけでなく、関数を用いた近似には基本的に適用できる方法である。

線形回帰には、回帰モデルへの適合度を示す決定計数という数値がある。

また、その回帰が有意であるかどうかを判定することも可能である。この場合、帰無仮説は「勾配が 0 に等しいため、y と x の間には定量的な依存関係がない」になる。

線形多重回帰の方法も、これに極めて近い。

線形回帰の実際

実際に線形回帰を行う際、考えるべきポイントについて。

カテゴリー化

体重、身長、BMI などの連続変数を回帰分析に入れるとき、そのまま数値変数として右辺に入れたくなるが、これは応答変数との関係が線形であると仮定していることになる (参考)。そのような確証がない場合は、いくつかに刻んでカテゴリー変数として回帰してみて、β 係数の値をみて線形であるかどうか確認後に、連続変数として用いるらしい。

対数変換

線形回帰の基本は y = ax + b であるが、実際には変数 x および y の対数を用いて、以下のような式で回帰している場合が多い。

log_ey = A * log_ex + b

> 回帰分析における対数変換の意味について解説したページ (1,2)。

対数変換をすると、異なるモデルにフィットすることになるので、回帰の結果が変わる。「両方を対数にしているから同じ」ということにはならない。
すなわち、y = ax + b には「a が一定」という前提があり、log_ey = A * log_ex + b には「A が一定」という前提がある。
両方の式を a および A について解くと、a = (y-b)/x であるが、A = (dy/y)/(dx/x) であり、両者はもちろん異なるものである。A は「弾力性」と言われる。

References

対数変換を行う意味について。回帰分析において対数変換する背景にある前提とは？ Link: Last access 2020/06/01.
一般化線形モデル. Link: Last access 2020/06/08.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。