回帰分析の概要

UB3/statistics/correlation/regression_overview

このページの最終更新日: 2020/07/12

  1. 回帰分析とは
  2. 回帰分析の目的
    • 機械学習と統計の違い
  3. 様々なタイプの回帰分析

広告

回帰分析 regression analysis とは

回帰とは 片方の変数 (x) から他方 (y) を予測する方法を探る という分析手法であり、通常は両変数の関係性が y = ax + b などの式で与えられる。


  • 通常は、変数 x によって変数 y の変化を予測することになる。x が一つならば単回帰分析、複数ならば重回帰分析である。
  • 青い直線を示す式が x と y の関係性を表すことになる。

x と y はさまざまな名前で呼ばれる。

x は独立変数 independent variable のほか、説明変数 explanatory variable、予測変数 predictor variable とも呼ばれる。連続変数であることが一般的だが、名義尺度 しか持たないカテゴリー変数でも OK。

y は応答変数 response variable (目的変数、反応変数) という名前のほか、従属変数 dependent variable、基準変数 criterion variable、非説明変数 explained variable とも呼ばれる。


回帰分析の目的

相関関係と因果関係の対応から、なんとなく相関分析は相関関係を調べるもので、回帰分析は因果関係を調べるもののような印象を持ってしまうが、これは間違い である (4)。予測と因果は違う。回帰係数は相関関係を示すもので、たとえば単回帰の場合は X と Y を入れ替えても同じ結果になる。

回帰分析は様々な目的に使われるのでややこしい。まず目的を意識し、それに合った使い方と議論をしなければならない。私の理解では、回帰分析は少なくとも以下の 3 つの目的に使われる。

予測
Prediction

予測精度のみを問題にするというアプローチ。この目的で行う場合、交絡、多重共線性、各回帰係数が有意であるかどうかは、原則として問題にならない。

説明
Explanation

中途半端な立場で、予測と言っておきながら因果についても議論したい場合。機械学習系の人は認めない傾向がある。

因果推論
Causal inference

因果推論を行うには、サンプルの取り方から検討する必要がある。


機械学習と統計の違い

機械学習は予測精度を追求、統計は解釈にも興味。しかし両者は大きく重なる、というのが現時点での理解。


広告

様々なタイプの回帰分析

  • 線形回帰が適当でない場合には、II 型の回帰分析というものがある (Ref)。Standard major axis regression (SMA) または reduced major axis regression (RMA) とも呼ばれる。線形回帰は X や Y に誤差がある場合には適当でなく、X と Y の両方が測定値である場合などには II 型が適している。
  • 重回帰では、説明因子の間に相関があると、多重共線性といって回帰係数が大きく不安定になる問題が生じる。これを解決する方法はいくつかある。
  • 主成分回帰 PCR: 主成分分析のようなアイディア。説明変数を主成分に変換し、それらを回帰する。主成分は互いに独立なので、多重共線性の問題は生じない。
  • 部分最小二乗回帰 PLS: 説明変数を互いに独立な潜在変数に投影し、それらを回帰する。
  • 重回帰では、説明変数 X が応答変数 Y の値を変化させる。ロジスティック回帰というのは、値でなく「特定の事象の確率」を予測する。つまり Y が 1 であるか否かを説明しようとする分析である。
  • 正則化回帰: 上の 2 つのように説明変数を減らす必要がない。データにノイズを入れて overfitting を回避しつつ、回帰係数が大きくなることに対してペナルティを与える。詳細はリンク先を参照のこと。
  • 交差検証 cross-validation: 交差確認とも言う。標本データを分割し、まずその一部を解析。残る部分でその妥当性を検証するという手法を意味する。
  • 線形回帰の条件: いくつかの条件があり、それを判定する方法もある (参考)。
  • 非線形回帰は nls 関数。まず数式を指定してから、データを指定。どのモデルにあてはめるか、どのような値を初期値とするかは、データ解析者の経験と勘に頼るものらしい (参考)。

広告

References

  1. 臨床統計 まるごと図解.

生存時間解析 について平易に書いた数少ない解説書。

統計のなかでも、生存時間解析はそれだけで 1 冊の本になるほど複雑なわりに、ANOVAや t 検定などと違い使用頻度が低いため、とっつきにくい検定である。

この本では、とくに Kalpan-Meier 生存曲線、Log-rank 検定、Cox 比例ハザードモデルを重点的に解説しているが、prospective study と retrospective study, 選択バイアス、プラセボなど、臨床統計実験で重要な概念についても詳しい説明がある。臨床でない、基礎生物学の実験ではあまり意識しない重要な点であるので押さえておきたい。


  1. What is the purpose of regression analysis? Link: Last access 2020/06/29.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment