正規分布: 平均値と標準偏差で規定される釣鐘型の分布

UB3/statistics/distribution/normal_distribution

このページの最終更新日: 2024/09/30

  1. 概要: 正規分布とは
    • 正規分布の特徴
    • 標準正規分布
  2. R で正規分布を作成し、ヒストグラムで可視化する
  3. 正規性の検定
    • qq プロット
    • Shapio-Wilk 検定

確率変数と確率分布 のページに、正規分布を含む分布の一覧があります。


広告

概要: 正規分布とは

正規分布 normal distribution とは、以下の確率密度関数 probability density function (PDF) で表される確率分布である。

正規分布の確率密度関数

式は複雑に見えるが、ここでのポイントは、x の他には平均値 μ と分散 σ2 しか使われていない という点である。つまり、正規分布とは 平均値分散 で定まる分布である と言うことができる。

平均値と分散を動かしてみて、グラフのパターンがどうなるかを調べた図が以下 (Public domain) である。平均値と分散によってグラフが変わること、どのグラフも同じような釣鐘型 bell-shaped の曲線であることがわかるだろう。


平均値と分散を変化させた正規分布

正規分布の特徴

このページ に便利そうな正規分布の図がたくさんあるが、以下の図 (Public domain) が一番情報量が多くて良さそうだったので、このサイトではこれを基本的に使うことにしたい。

正規分布の特徴

正規分布には、以下のような重要な特徴がある。

  • 釣鐘型 bell-shaped の曲線を示す分布である。
  • 平均値 mean、中央値 median、最頻値 mode が全て等しい。平均値はしばしば μ で表される。
  • 標準偏差を σ としたとき、データの約 68% が μ ± σ の範囲に分布する (0 から ± 34.13% の範囲)。
  • 同様に、約 95% が平均から 2 標準偏差の範囲内に収まる。

標準正規分布

平均値 0、標準偏差 1 の正規分布を、とくに標準正規分布 standard normal distribution という。

男性、女性の身長はそれぞれ正規分布に従うが、それを合わせると上の平らな分布になるらしい (1)。

R で正規分布を作成し、ヒストグラムにする

統計ソフト R には、rnorm という正規分布を作成するための関数がある。正規分布は平均値 μ および標準偏差 σ で指定される関数であり、実際のデータとしてはサンプル数 n も要素になる。よって rnorm ではこの 3 つを指定する。ただし、ギリシャ文字ではなく m と sd を使う。

n を 10 と 1000 にして、同じ平均と分散をもつ 2 つの正規分布、testnorm1 と testnorm2 を作ってみる。


testnorm1 <- rnorm(n=10, m=0, sd=1)
testnorm2 <- rnorm(n=1000, m=0, sd=1)


これを hist 関数でプロットしてみると、次のようになる。


サンプル数が少ないと、正規分布していても全く釣鐘型に見えないが、サンプル数が増えるほど完全な釣鐘型に近くなる。

男性、女性の身長はそれぞれ正規分布に従うが、それを合わせると上の平らな分布になるらしい (1)。

正規性の検定

qq プロット

qq プロットは検定ではないが、あるデータセットが正規分布しているかどうかのデータを可視化するプロットであり、覚えておくと便利。R を使った方法を説明する。

R のベクトルデータ testnorm3 を作り、これを qqprot してみよう。

testnorm3 <- rnorm(n=1000, m=0, sd=1)
qqnorm(testnorm3)
qqline(testnorm3)

関数名は qqplot でないので注意。まず分布をプロットする qqnorm を実行。次の qqline は、このプロットに線を追加する。

このプロットでは、X 軸および Y 軸はそれぞれ観測値の分位数 sample quantiles と理論的分位数 theoretical quantiles を示す。この 2 つの "quantile" が、qqplot という名前の由来である。qqline とは、両者が等しくなるような 45 度の線のこと。


Shapiro-Wilk 検定

データが正規分布しているかどうかの検定には、Shapiro-Wilk 検定がよく使われる。

統計ソフト R を使った検定方法を R の Shapiro-Wilk test のページにまとめたので、リンク先を参照のこと。


広告

References

  1. Distribution of adult heights. Link: Last access 2020/06/30.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。