カイ二乗検定

statistics/group_comparison/chi_square
2017/11/28 更新

  1. 概要: カイ二乗検定とは

広告

概要: カイ二乗検定とは

カイ二乗検定 chi square test とは、カイ二乗分布に従う統計検定量を用いる検定の総称である (1)。

  1. 標本集団の分布が、母集団の分布と一致しているかどうかを判定する適合度の検定
  2. 与えられた 2 つの集団の分布が一致しているかどうかを判定する独立性の判定

の 2 つがよく用いられる。


カイ二乗検定: 適合度の検定

適合度の検定 goodness-of-fit test は、標本集団の分布が母集団の分布と一致しているかどうかを判定する 検定である。

血液型の例 (2) がわかりやすかったので、これを例示する。数字は元のページとは変えてある。

問題

日本人の血液型の分布を A 型 40%、B 型 20%、AB 型 10%、O 型 30% とする。以下の血液型のデータは、日本人全体の分布と同じとみなしてよいか?

A 型 35 人、B 型 18 人、AB 型 6 人、O 型 41 人



解答: カイ二乗検定

以下のように、期待度数 (比率から期待される度数) と観測度数 (実際のデータ) を比較する。

血液型 A B AB O 合計
期待度数 40 20 10 30 100
観測度数 35 18 6 41 100

カイ二乗値は、以下の式で与えられる。

 

実際に数字をあてはめてみると、

(35 - 40)2/40 + (18 - 20)2/20 + (6 - 10)2/10 + (41 - 30)2/30 = 6.46

となる。この値がカイ二乗分布に従うことになる。なぜこの検定統計量がカイ二乗分布に従うのかは難しい問題なので、実際に検定を使いたいだけの場合は深く考えずに受け入れるのが良い。

次に、自由度 degree of freedom を調べる。この場合、血液型が 4 タイプなので自由度は 3 である。

自由度が 3、有意水準 0.05 のとき、下の表 (2) からカイ二乗値は 7.815。実際に得られた値はこれよりも小さいので、与えられた血液型データは日本人全体の分布と有意に異なるとは言えない。


期待値からのずれが大きくなると、カイ二乗値も大きくなる。カイ二乗値が大きいと、「2 つの集団は有意に異なる」という結果が得られやすくなる。


広告

コメント欄

一言コメントをどうぞ! (100 字まで)

このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. Amazon link: 岩波 理化学辞典 第5版: 使っているのは 4 版ですが 5 版を紹介しています。
  2. By i dont know - google, CC BY-SA 4.0, Link