t 分布:
t 検定に使われる、平均値や標準偏差にされない分布

statistics/distribution/t_distribution
2018/07/25 更新

  1. 概要: t 分布とは
  2. t 分布の特徴
  3. 実際に t 分布を描いてみる

広告

概要: t 分布とは

まず、2 つの集団を考えてみる。

  1. 母集団 parent population: 平均 μ、分散 σ2、標準偏差 σ の正規分布。
  2. この母集団からとってきた標本集団 sample population: 平均 m、不偏分散 u2、不偏分散の標準偏差 u。

ここで、変数 t を以下のように定義する。分子は標本集団の平均から母集団の平均を引いたもの、分子は標本集団の標準偏差 (不偏分散の標準偏差) をサンプル数 n の平方根で除したものである。


この t が従う分布を t 分布という

t 分布は次の式で表される。ここで、Γ はΓ関数、ν は自由度 degree of freedom (サンプル数 n から1 を引いたもの) である。




t 分布の特徴

t 分布には以下のような特徴がある。これらの性質のために、検定統計量 t を用いた t 検定 Student's t-test が成立しているのである。


標本集団のみから算出可能

実際の背景を反映していないかもしれないが、意義としては次のように考えると良い。難しい場合は、リンク先も参照のこと。

  1. 仮説検定 をする際には検定統計量が必要である。
  2. 正規分布する検定統計量 z 値を用いた z 検定 があるが、これを算出するには母集団の分散が必要。普通の実験では、母集団の分散は未知である。
  3. そこで、標本集団のデータのみから算出できる t 値と、それが従う t 分布が考案された。

t 分布の特徴

  • t 分布は自由度のみの関数となり、母集団、標本集団の平均値や標準偏差に左右されない。
  • n が大きいときは標本集団の「単なる標準偏差」を使うことができるが、n が小さくなるほど誤差が出てくるので、「不偏分散の標準偏差 (n のかわりに n-1 を使う)」にしなければならない。

広告

実際に t 分布を描いてみる

論より証拠ということで、MATLAB を使って t がどのように分布するのか調べてみる。以下のように集団を定義する。

  • 母集団 parent population: 平均値 mean_p、標準偏差 sd_p
  • 標本集団 sample population: 平均値 mean_s、標準偏差 sd_s、サンプル数 n

まずは、基本的な条件として mean_p=0, sd_p=1, 母集団の要素を 1,000,000 個、n = 100 を仮定。

母集団のヒストグラム。縦軸は要素の個数です。

n = 100 の標本集団。母集団の分布をあまり反映していないように見えますが、ランダムサンプリングなのでこんなものです。


母集団から 100 個を取り出す作業を 1 回行い、上のような標本集団のヒストグラムを得た。このときの t は -0.9636 であった。次に、「母集団から 100 個を取り出す」 作業を複数回繰り返し、t の値がどのように分布するのかを調べてみる。

10 回の繰り返し。まだ t の値はばらばらで、一定の傾向は見えない。

100 回。なんとなく、t は 0 に近い値を取る確率が高そうに思えてきた。


1,000 回。山型の分布になってきたが、まだガタガタしている。

10,000 回。もう分布の形がはっきりわかるようになってくる。 ± 3 以上の値は極めて稀。



100,000 回。ほぼ理想的な t 分布。



広告

コメント欄

一言コメントをどうぞ! (100 字まで)

フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。


References

  1. 検定統計量 T の式. Web.