回帰分析:
データ数および因子数は何個まで含められるのか

UB3/statistics/correlation/regression_overview

このページの最終更新日: 2024/09/30

  1. 回帰分析に含められる説明変数の数
    • まずは 1/10 ルールを押さえよう
    • その他のルール
    • ルールが破られると何が起こるのか
    • 仮説検定に基づいた算出
  2. 回帰分析を行うのに必要なデータ数

広告

回帰分析に含められる説明変数の数

重回帰分析とは、複数の説明変数 X を使って、応答変数 Y の値を予測・説明するための解析である。X を何個まで含められるかというのは、よく議論になる点であるが、私がいろいろ調べてみて得た結論は、絶対的な値はないが、データ数の 1/10 程度が目安 である。

Event per variables (EPV) と略されることもある。


まずは 1/10 ルールを押さえよう

Wikipedia には One in ten rule という項目があり、overfitting の問題を抑えるためには、データ数の 1/10 に説明変数の数を抑えるべきと説明されている。

これが最も一般的なルールで、ネットで探しても多くの根拠を発見することができる。

  • Ref 2 では、この文献が示されている。Hair, Black, Babin, Anderson & Tatham. 2014. Multivariate Data Analysis, 7th Edition]. See discussion on sample size in pages 573-574, 10:1 is desirable.
  • Ref 3 では Peter 1995 がこのルールを考案したと言っている。
  • このブログ では、EPV が 10 を超えるあたりから推定値の差が ±10% ぐらいに入ってくるというシミュレーション論文が紹介されている。Peduzzi et al. J Clin Epidemiol 48, 1503-1510, 1995.

ロジスティッックおよび Cox 回帰で、1/10 ルールを緩めてもいいんじゃないかという 論文。オープンアクセス。


その他のルール

実は 1/10 ルールはかなり甘い基準で、同様に one in twenty や one in fifty というルールさえある。以下、提唱されているその他のルールをまとめてみる。

1/20 ルール

Green の基準 (2)

重回帰では、説明因子を m として N ≥ 50 + 8m を提唱している。


また、文献 1 には豊田 (1998) が引用されており、偏回帰係数の解釈を目的とする場合には、独立変数の数は2つにとどめることが望ましい (ただし独立変数間に相関がある場合) という記述が紹介されている。

ただし、説明変数の数を増やすことは必ずしも良いことではなく、これも分野によるようである (1)。文献 1 では、とにかく予測の精度が重要な社会学のような分野では、説明変数を増やして予測力を高めることに一定の意味があるが、教育心理学研究のように説明変数と従属変数の具体的な関係を吟味し、メカニズム解明や介入につなげていこうという場合には、多くの独立変数を投入した重回帰分析は結果の解釈が困難で、実質的に無意味になることが多いと書かれている。


ルールが破られると何が起こるのか

重回帰分析を評価する指標の一つが、重決定係数 R square である。これは、従属変数の分散の何%が説明変数によって説明されるかを表す指標で、基本的には高いほど「良い」モデルであると考えられる。どの程度なら「高い」とみなされるかは、分野によって異なるようである。

一般に、説明変数をたくさん含めると R square は高くなる。多重検定のような形でこれに対処しているのが自由度調整済み (adjusted) R square」であり、重回帰分析では一般にこの調整済みの値を用いる。

1:20 rule が破られると、回帰係数の shrinkage が必要になる (参考)。

説明変数が多すぎて問題になるのは、基本的にはオーバーフィッティングのようである (参考)。これが正則化回帰でもそうなのかどうか、はっきりした記述がないが、予測を目的とした場合、オーバーフィッティングは問題であるので、良くないことだろうと予想する。


仮説検定に基づいた算出

検出力検定で決める。Ref 3 に R でのやり方が書かれている。


広告

回帰分析を行うのに必要なデータ数

もちろん、「データによる」というのが模範回答だが、参考になる情報をまとめておく。

まず、データが 2 点ならそれらを通る直線が必ずひけるので、線形回帰分析は全く意味がない。同様に、3 点のみを用いた 2 次関数での回帰にも意味はない。

この場合も、上記の 1/10 ルールを応用して考えることができる。つまり、単線形回帰は説明変数が 1 個なので、データ数 10 個が一つの目安である。


広告

References

  1. 重回帰分析について. Link: Last access 2020/07/10.
  2. How much sample size required for applying linear regression model for each predictor? Link: Last access 2020/07/10.
  3. 回帰分析におけるデータ数の決定方法について. Link: Last access 2020/07/10.
  4. Online textbook. Link: Last access 2020/07/10.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。