z 検定: 正規分布に従う検定統計量を利用した平均値の検定
UB3/statistics/group_comparison/z_test
このページの最終更新日: 2024/09/30- 概要: z 検定とは
- 例題 1: 平均価格がいくらであると言えるか?
- 仮説の設定
- z 値の計算
- z 値の分布
- MATLAB でさらに解析
広告
概要: z 検定とは
z 検定とは z 値を検定統計量とする仮説検定 hypothesis test であり、
ただし、実際の生物学実験では
z 検定の考え方は t 検定と非常によく似ているので、このページは t 検定 を勉強する前のトレーニングのようなものと認識するのが良いだろう。
例題 1: 平均価格がいくらであると言えるか?
例題 1 ある地域に立地する全てのスーパーマーケットの昨年の卵 1 パックの平均価格は、117 円でした。今年は、地域からランダムに 20 店舗を選び、卵 1 パックの値段を調査することになりました。結果は、次の通りです。 119; 117; 115; 116; 112; 121; 115; 122; 116; 118; この結果から、地域内全てのスーパーマーケットの今年の卵 1 パックの平均価格は、117 円であるといえるでしょうか? なお、問題を簡単に考えるために、データは正規分布に従うと仮定し、 |
仮説の設定
仮説検定のページ の流れに従い、
帰無仮説: 平均価格は 117 円である。
対立仮説: 平均価格は 117 円ではない。
のように仮説を設定する。
z 値の計算
さらに、
なお、t 値との違いは母集団の標準偏差 σ を用いるか標本集団の不偏分散の標準偏差 u を用いるかだけである。
上の 20 個の値から計算すると、z = -2.7578 となる。そこで次に、この -2.7578 という値が現れる確率がどれだけ小さいかを検討することになる。
z 値の分布
Z score の -2.7578 は、Cumulative % が 2.3% と 0.1% の間、やや 1% 寄りである。つまり
文献 1 には、正規分布表のかわりに MATLAB の normimv 関数を使う方法が説明されている。2.5% の片側確率を与える z 値は、1.9600 および -1.9600 である。また、z = -2.7578 に対応する p 値は normcdf 関数で求めることができ、両側で 0.0058 となる。
MATLAB でさらに解析
上の結果を、MATLAB で実際に z 値の分布を見ながら再解析してみよう。やっていることは
- この地域に、スーパーマーケットが全部で 100 軒あると仮定し、卵の平均価格を 117 円、標準偏差を 3 円とする。
- 上の問題のように無作為に 20 軒を選び、z 値を算出する。このステップを 1 回行う試行 trial、2 回繰り返す試行、・・・ 5000 回繰り返す試行を行う。
- 実際に 1.96 より大きい z と -1.96 より小さい z が出現する割合を計算してみる。繰り返し数が多くなれば、0.05 に近づいていくはずである。
結果
z 値の分布。それぞれの trial について 1 個の z 値を記録してヒストグラムにした。
一応、標準正規分布に近い形になっているが、中心が微妙にずれている。おそらく、トータル 5000 回では十分でないのだろう。t 分布のページ で計算した t 値も、理想に近い分布になるまでに 100,000 個の値が必要だった。
横軸に繰り返しの回数、縦軸に 1.96 より大きい z と -1.96 より小さい z が出現する割合をプロットした。500 回程度の繰り返しでは、z の出現割合 (要するに P 値) は 0.25 - 0.75 ぐらいの範囲になるが、繰り返しが増えると 0.05 に収束している。
広告
References
- MATLAB による仮説検定の基礎. Web pdf.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。
アップデート前、このページには以下のようなコメントを頂いていました。ありがとうございました。2018 年 11 月 11 日に訂正しました。
2018/08/08 16:24 例題の最後から2番目のデータが209で異常値ではないですか? |