t 分布:
t 検定に使われる、平均値や標準偏差にされない分布
UB3/statistics/distribution/t_distribution
- 概要: t 分布とは
- t 分布の特徴
- 実際に t 分布を描いてみる
確率変数と確率分布 のページに、t 分布を含む分布の一覧があります。
広告
概要: t 分布とは
まず、2 つの集団を考えてみる。
- 母集団 parent population: 平均 μ、分散 σ2、標準偏差 σ の正規分布。
- この母集団からとってきた標本集団 sample population: 平均 m、不偏分散 u2、不偏分散の標準偏差 u。
ここで、変数 t を以下のように定義する。分子は標本集団の平均から母集団の平均を引いたもの、分子は標本集団の標準偏差 (不偏分散の標準偏差) をサンプル数 n の平方根で除したものである。
t 分布は次の式で表される。ここで、Γ はΓ関数、ν は自由度 degree of freedom (サンプル数 n から1 を引いたもの) である。
t 分布の特徴
t 分布には以下のような特徴がある。これらの性質のために、検定統計量 t を用いた t 検定 Student's t-test が成立しているのである。
標本集団のみから算出可能
実際の背景を反映していないかもしれないが、意義としては次のように考えると良い。難しい場合は、リンク先も参照のこと。
- 仮説検定 をする際には検定統計量が必要である。
- 正規分布する検定統計量 z 値を用いた z 検定 があるが、これを算出するには母集団の分散が必要。普通の実験では、母集団の分散は未知である。
- そこで、標本集団のデータのみから算出できる t 値と、それが従う t 分布が考案された。
t 分布の特徴
- t 分布は自由度のみの関数となり、母集団、標本集団の平均値や標準偏差に左右されない。
- n が大きいときは標本集団の「単なる標準偏差」を使うことができるが、n が小さくなるほど誤差が出てくるので、「不偏分散の標準偏差 (n のかわりに n-1 を使う)」にしなければならない。
広告
実際に t 分布を描いてみる
論より証拠ということで、MATLAB を使って t がどのように分布するのか調べてみる。以下のように集団を定義する。
- 母集団 parent population: 平均値 mean_p、標準偏差 sd_p
- 標本集団 sample population: 平均値 mean_s、標準偏差 sd_s、サンプル数 n
まずは、基本的な条件として mean_p=0, sd_p=1, 母集団の要素を 1,000,000 個、n = 100 を仮定。
母集団のヒストグラム。縦軸は要素の個数です。 |
n = 100 の標本集団。母集団の分布をあまり反映していないように見えますが、ランダムサンプリングなのでこんなものです。 |
母集団から 100 個を取り出す作業を 1 回行い、上のような標本集団のヒストグラムを得た。このときの t は -0.9636 であった。次に、「母集団から 100 個を取り出す」 作業を複数回繰り返し、t の値がどのように分布するのかを調べてみる。
10 回の繰り返し。まだ t の値はばらばらで、一定の傾向は見えない。 |
100 回。なんとなく、t は 0 に近い値を取る確率が高そうに思えてきた。 |
1,000 回。山型の分布になってきたが、まだガタガタしている。 |
10,000 回。もう分布の形がはっきりわかるようになってくる。 ± 3 以上の値は極めて稀。 |
100,000 回。ほぼ理想的な t 分布。 |
広告
References
- 検定統計量 T の式. Web.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。