線形重回帰分析: 原理、R による回帰

UB3/statistics/correlation/regression_ols

このページの最終更新日: 2024/09/30

  1. 概要: 重回帰分析とは
  2. 重回帰分析で注意すること
    • 過剰適合の問題
    • 多重共線性
    • 説明変数の数

広告

概要: 重回帰分析とは

Y = aX1 + bX2... のように、複数の説明変数 X を利用した回帰分析を、重回帰分析 multiple regression という。

重回帰分析は、X の次数が 1 でも、それ以上でも行うことが可能である。X の次数が 1 の重回帰分析を、とくに 線形重回帰分析 という。


広告

重回帰分析で注意すること

過剰適合の問題

説明変数が多く、全体のデータ数が少ない場合、見せかけの予測精度が向上してしまうことがある (2)。つまり、数少ないデータに対して複雑なモデルを作って無理矢理説明しているので、そのデータに対する精度は良いものの、予測能力が低くなってしまうということ。


多重共線性

重回帰分析において、それぞれの説明変数 X 同士に相関があると、回帰係数が大きくなり、全体の回帰の信頼性が下がってしまう。これを多重共線性 multicollinearity の問題という。正則化回帰 も参照のこと。


説明変数の数

重回帰分析では、サンプルの数と説明変数の数のパランスが重要である。重回帰を評価する指標の一つが、重決定係数 R square である。これは、従属変数の分散の何%が説明変数によって説明されるかを表す指標で、基本的には高いほど「良い」モデルであると考えられる。どの程度なら「高い」とみなされるかは、分野によって異なるようである。

一般に、説明変数をたくさん含めると R square は高くなる。多重検定のような形でこれに対処しているのが自由度調整済み (adjusted) R square」であり、重回帰分析では一般にこの調整済みの値を用いる。

一般には 説明変数の数 : サンプル数 = 1 : 10 である。詳細は 回帰分析のサンプル数 のページを参照のこと。


広告

References

  1. t検定、回帰分析・線形回帰、ANOVAは、みなつながっている. Link: Last access 2020/05/28.
  2. 重回帰分析の課題 ~過剰適合~ Link: Last access 2020/06/08.
  3. 重回帰分析について. Link: Last access 2020/06/14.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。