分散: 定義、意味、計算方法など

UB3/statistics/basics/variance

このページの最終更新日: 2020/06/17

  1. 定義: いろいろな分散
    • 母分散
    • 標本分散
    • 不偏分散
  2. 分散の意味と注意点
    • 次元の問題
    • 分布が重要

広告

定義: いろいろな分散

分散 variance にはいくつか種類がある。

  • 母分散 population variance
  • 標本分散 sample variance
  • 不偏分散 unbiased variance (or unbiased estimate of variance, unbiased estimate of population variance)

母分散

母集団の分散のこと。m 個のデータ (x1, x2, x3, ... xm-1, xm) から成る母集団があり、X をその平均としたとき、母分散 σ2


と表される。なお、X - xi偏差 deviation という。

母分散は記述統計 descriptive statistics ではよく使われる値であるが、推測統計 inferative statistics を使うような生物学実験では、母集団についてのデータを得ることはできない (参考)。

このような場合、標本集団である実験群から得られたデータの分散は、次に示す標本分散 sample variation である。そして、いかに標本分散から母分散を推定するかということを考える必要が出てくる。


標本分散

n 個のデータ (x1, x2, x3, ... xn-1, xn) から成る標本集団があり、X をその平均としたとき、標本分散 s2


である。 Sample variation なので、s2 で表されることが多い。

つまり、全ての要素について平均値からのずれ (偏差) を2乗し、その平均をとったもので、式の形は母分散と同じである。母集団についてデータを得ることができないので、この標本分散から母集団を推定することになる。

ただし、一般に使われるのは以下に示す不偏分散であり、標準偏差 standard deviation も不偏分散から求めるのが普通である。


不偏分散

詳細はよくわからないが、上記の標本分散 sample variance は、母分散の推定値にはならない ことが統計学的に証明されている。そこで、母分散と同じ期待値をもつ以下の不偏分散 unbiased variance が使われる。形の上では、単に n を n - 1 にしただけである。


Unbiased variation なので、u2 と表されることが多い 。 しかし、u を表す決まった言葉はないようで、

  • 母標準偏差の不偏推定値
  • 不偏分散から求めた標準偏差
  • 標本に基づいて予測した標準偏差

などのような多様な表記がある (3)。単に標準偏差と書いてある場合は、n ではなく n-1 を使ったこちらの分散の平方根を意味する。

Excel の関数 =stdev も不偏分散であり、分母に n をおきたい場合は =stdevp を用いる (Excel Mac 2011 で確認) 。


広告

分散の意味と注意点

次元の問題

分散 σ2 はバラツキを表す指標であるが、2 乗しているために平均値と次元が異なる。そこで、分散の平方根である標準偏差 σ もよく使われる。

分散では偏差を 2 乗するので、標準偏差に比べて、平均との差が大きく評価される。


分布が重要

分散の計算式には、平均値が使われる。したがって、平均値に意味のあるようなデータで、分散はより大きな意味をもつと言える。「平均値に意味のあるデータ」の詳細は、平均値のページ を参照のこと。ここでは簡単に述べる。

平均値および分散は、そのデータの分布が 正規分布 に近いとき、ばらつきの指標として大きな意味をもつ。

図 (Public domain) は平均 0、分散 = 標準偏差 = 1 の正規分布 (標準正規分布) である。分散および標準偏差が大きいと、潰れたような形のべたっとした分布になる。


一方で、こちらの図 (Public domain) のような二峰性 (2 つのピークがあるという意味) の分布では、分散や標準偏差という概念があまり意味がないことがわかる。


Excel の関数 =stdev は、分母に n ではなく n - 1 を置いた不偏分散である。n を使う場合は =stdevp を用いる。 (Excel Mac 2011 で確認)


広告

References

  1. ハンバーガー統計学 http://kogolab.chillout.jp/elearn/hamburger/
  2. 平均と偏差、分散、相関. http://www.takenet.or.jp/~hayakawa/u-tan1-1.htm
  3. t 分布. http://www.geisya.or.jp/~mwm48961/statistics/sample3.htm
  4. 池田 2013. 統計検定を理解せずに使っている人のために I. 化学と生物 51, 318-325.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment