群間比較の統計検定:
検定方法の選び方、実践的な注意点など

statistics/group_comparison/group_comparison
群間比較に関する上位のページです
2018/06/03 更新

  1. 検定方法の選び方
  2. 正規性の検定を最初にかけるべきか?
  3. 等分散性を最初にチェックすべきか?
  4. 計数データの t 検定
  5. t 検定の繰り返しと多重検定
  6. 標準化されたデータに対する t 検定

広告

検定方法の選び方

以下のフローチャートに従う。


正規性の検定を最初にかけるべきか?

ANOVA などの多重検定にも関係する話であるが、t 検定を例に考えてみる。

t 検定は,正規分布 normal distribution (図) に従うデータに対する検定である。したがって、まず別の検定をかけて正規性を判定し、正規分布しているならば t 検定を行うという手順を踏みたくなる。


この際、考慮すべきポイントは以下の 2 点である。私は、最初に正規性の検定をかけることには反対である。


1. 「正規性」は母集団の問題

しばしば誤解されるが,「正規性」とは母集団の正規性であり、標本集団が正規分布しているかどうかは関係ない (1)。

文献 1 には、以下のような専門家のコメントがある。


「たとえば,平均値をt 検定で比べる場合には,動物を何匹か選んできて実験することになるんですけど,その背後にある動物の非常に大きな集団 (母集団といいます) を考えたとき,何かの特性が正規分布しているかどうかが問題で,別に手元にきた100匹とか5 匹の動物(これをサンプルといいます)が正規分布しているかどうかは問題ではないんです.

「正規分布から選ばれた代表なのかどうかが問題で,もし,背後にある集団で何かの特性が正規分布をしていれば t 検定というのは正確な方法となります.だから,t 検定は近似ではないんです.ただ,背景にある集団が正規分布していないと,必ずしも正確な方法にはなりません.


母集団の分布を仮定しない方法をノンパラメトリック non-parametric な方法という。検出力 (本当に差があるときに,差があると言える威力) が落ちるが、母集団の正規性が仮定できないときは、t 検定ではなく Mann-Whiteney の U 検定 を行う必要がある。

ただし、正規分布が仮定できなくても,左右対称の分布または対象数が多ければ,多くの場合は t 検定で問題ないというコメントもある (1)。


2. 二重検定は避けるべき

最初に正規性の検定を行い、確認できたら t 検定。この手順を踏むと、同じデータに対して 2 回統計をかける ことになる。これは 2 重検定であり、基本的に避けるべき。

等分散性の検定を最初にかけるという方法でも同じ問題が生じる。良いウェブサイトがあるので、そちらを例に考察することにする。


広告

等分散性を最初にチェックすべきか?

これも t 検定を例に説明する。

最初に F 検定で等分散であることを確認し、OK ならば t 検定。この方法には 2 つの問題がある。

  1. 有意水準 5% で F 検定と t 検定を両方かけるので、全体の有意水準が 5% にならない。
  2. 仮に F 検定で等分散性が示唆されたとしても、これは仮説 hypothesis を考えると「等分散でない」 という仮説が棄却されただけで、「等分散である」 ことの根拠にはならない(6)。

1. の問題は,いわゆる多重検定の問題であるので,Bonferroni 補正などを利用して p 値を変更するという対処法もあるようだ (7)。

文献 5 などでは 最初から Welch の検定をする のが良いということになっている。とすると、同じ理屈で最初からノンパラメトリックな検定をしなければならなくなる。

2012 年には「まあ OK じゃないの」という論文もあり (8)、議論の種はつきない問題のようだ。


計数データの t 検定

  • D さんと J さんが今まで食ったパンの枚数を比較する。
  • 組織切片で免疫染色を行い,染まった細胞の数を A 群と B 群で比較する。
  • A 群と B 群にストレスを与え,生き残った個体数を比較する。

このようなデータは計数データであり,整数以外の値を取らない。したがって分布は正規分布にはならず,離散型の分布になる。このようなデータには,正規分布を仮定する t 検定を適用することはできず,ノンパラメトリックな Mann-Whiteney の U 検定カイ二乗検定 を使う必要がある。

しかし,リアルタイム PCR などで測定する mRNA 量も厳密には計数データである。これは,上で述べた 「数が十分に多く,分布が対称な場合には,だいたい t 検定で問題ない」ということに基づいていると思われるが,この点も頭に入れておく必要があるだろう。


t 検定の繰り返しと多重検定

t 検定を繰り返すと 第 1 種の過誤 の確率が高まるので,避けなければならない。このような場合は分散分析を用いる。

これは統計の教科書によく書かれている基本事項であるが,実際にどのような意味なのかを少し考察してみる。

図(2)では,何種類もある dlip という遺伝子について,一つずつを欠損させたショウジョウバエの変異体を作り,体重(mg)をオス(m)とメス(f)で測定している。赤が変異体の体重,黒がコントロールの体重で,赤 vs 黒の t 検定を行っている。


合計 19 回の t 検定が一つの図で行われていることになるが,実際にはこれは OK。ここではたまたま同じグラフに示しているので t 検定を繰り返しているように見えるが,これは 2 つのバーのグラフが 19 個並んでいるのと同じである。実際に問題となるのは下の図のような場合。



文献 4 の図。Western blot のバンドの太さを 3 群で比較しており,これが t 検定の繰り返しで,ANOVA を用いるべき事例である。


標準化されたデータに対する t 検定

図のように,コントロール群の値が全て 1 でエラーバーがなく,実験群の値だけにエラーバーがついている図を見たことがあるだろうか。



個人的には、標準化は情報量が低下するので好きではない。たとえば以下のようなデータ処理も可能である。

  • マウスから細胞を初代培養する。
  • 薬剤 A をかけた実験群(右図の 2)と,A の溶媒のみをかけた対照群(右図の 1)について,何かを測定して棒グラフにする。
  • 初代培養の条件がうまく整わないので,実験ごとに値が大きく違ってしまうが,薬剤 A の効果は一定で,いつも測定値は 1.5 倍ぐらいになる。
  • そこで,それぞれの実験で常に対照群の値を 1 として標準化し,これを 5 回繰り返して右のグラフを作る(N = 5)。
  • 対照群のデータは,N = 5 だが全て値が 1 なので,エラーバーの長さは 0 になる。

薬剤 A の効果について知りたい実験であり,初代培養の条件の影響を排除することは必ずしも悪いことではない。しかし,標準化したあとのデータに対して t 検定をかけることは誤りである と思う。なぜならば,t 検定の前提条件として母集団が正規分布に従うことがあるが,値が全て 1 である対照群からは,母集団の正規性を想定することができないためである。

この標準化が,t 検定の p 値に与える影響について,簡単なプログラムを組んで調べてみた。手順は以下の通り。

  • 集団 a は,平均値 1,標準偏差 0.5,要素 n 個で正規分布に従う。
  • 集団 b は,平均値 1.5,標準偏差 0.75,要素 n 個でこれも正規分布に従う。
  • n の値を 2 から 50 まで変化させたときに,a と b を t 検定かけたときの p 値がどのように変化するかを調べた。この結果が下の棒グラフ 1 で,一番左の坊が n = 2 ,一番右が n = 50 である。
  • 下の棒グラフ 2 は,要素 n 個で値が全て 1 の集団 c と,要素 n 個で値が全て b/a の集団 d についての同じグラフである。b の値を,a の値で標準化したあとに t 検定をかけているということになる。


ここからわかることは,n の値が小さいときは,おそらく標準化によってバラツキか見かけ上少なくなるため(とくに a 群 → c 群の変換によって),p 値は標準化を行った 2 の方が小さい 傾向を示す。

 

しかし,正しい t 検定である 1 では,p 値が n に応じて順調に小さくなるのに対し,2 ではあまり小さくならないようである。c 群が不自然な分布(一様分布)をしていることが悪い影響を与えているのではないかと思う。

 


広告

コメント欄

一言コメントをどうぞ! (100 字まで)

このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. 山中ら 2009a. 分子生物学,生化学,細胞生物学における統計のポイント. 蛋白質核酸酵素 53, 1792-1801.
  2. Gronke et al. 2010a. Molecular evolution and functional characterization of Drosophila insulin-like peptides. PLoS Genet 6, e1000857.
  3. t検定をばかにしてはいけない。の巻き。 Link: Last access 2018/06/03.
  4. Kawada et al. 2013a. High concentrations of L-ascorbic acid specifically inhibit the growth of human leukemic cells via downregulation of HIF-1a transcription. PLoS ONE 8, e62717.
  5. Okumura's Blog; 2 段階 t 検定の是非. Link: Last access 2018/06/03.
  6. 統計勉強: 等分散性の検定について. Web.
  7. Welch検定が主流,単純 t 検定や ANOVA は時代遅れ:Statwingの話題から. Link.
  8. Rochon et al. 2012a. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Med Red Method 12, 81.