群間比較の統計検定:
検定方法の選び方、実践的な注意点など

statistics/group_comparison/group_comparison
群間比較に関する上位のページです
2018/07/20 更新


内容が増えてきたら独自のページを作っています。リンクがある項目は、このページに簡単なサマリーがあり、詳細をリンク先の別のページで説明しています。。

  1. 検定方法の選び方
  2. 事前検定の是非、データの平方根をとる意味
    • 「正規性」は母集団の正規性
    • 等分散性を最初にチェックすべきか?
  3. 計数データの t 検定
  4. t 検定の繰り返しと多重検定
  5. 標準化されたデータに対する t 検定

広告

検定方法の選び方

以下のフローチャートに従う。


事前検定の問題

ANOVA などの多重検定にも関係する話であるが、t 検定 を例に考えてみる。

t 検定は、正規分布 normal distribution (図) に従うデータに対する検定である。t 検定の前提条件は、Livingston にまとめられているようである (8I)。母集団が skew していると、type I error のリスクが大きくなる (8I)。

したがって、まず別の検定をかけて正規性を判定し、正規分布しているならば t 検定を行うという手順を踏みたくなる。

この際、考慮すべきポイントは以下の 2 点である。正規性を例に説明しているが、等分散性を事前検定する場合でも全く同じである。

  1. 最初に正規性の検定を行い、確認できたら t 検定。この手順を踏むと、同じデータに対して 2 回統計をかける ことになる。これは 2 重検定であり、基本的に避けるべき。全体の有意水準が 5% に収まらなくなる。
  2. 正規性の検定における 帰無仮説 は、「正規分布する」である (8)。この仮説が棄却できない場合、「正規分布する」として t 検定をすることになるが、この状態は論理的に「正規分布するという仮説を棄却する証拠が不十分である」ということで、「正規分布する」ことを証明してはいない。したがって「正規分布するために t 検定をした」という論理に正当性がない。

この項目では、正規性と等分散性を例に、これらの点を解説する。私は、基本的には事前検定には反対で、最初からノンパラメトリックなテストを行うべきという立場である。

この点については、事前検定の是非 で解決法を含めて検討している。


広告

計数データの t 検定

  • D さんと J さんが今まで食ったパンの枚数を比較する。
  • 組織切片で免疫染色を行い、染まった細胞の数を A 群と B 群で比較する。
  • A 群と B 群にストレスを与え、生き残った個体数を比較する。

このようなデータは計数データであり、整数以外の値を取らない。したがって分布は正規分布にはならず、離散型の分布になる。このようなデータには、正規分布を仮定する t 検定を適用することはできず、ノンパラメトリックな Mann-Whiteney の U 検定カイ二乗検定 を使う必要がある。

しかし、リアルタイム PCR などで測定する mRNA 量も厳密には計数データである。これは、上で述べた 「数が十分に多く、分布が対称な場合には、だいたい t 検定で問題ない」ということに基づいていると思われるが、この点も頭に入れておく必要があるだろう。

ResearchGate の関連ページ


t 検定の繰り返しと多重検定

t 検定を繰り返すと 第 1 種の過誤 の確率が高まるので、避けなければならない。このような場合は分散分析を用いる。

これは統計の教科書によく書かれている基本事項であるが、実際にどのような意味なのかを少し考察してみる。

図 (Ref 2)では、何種類もある dlip という遺伝子について、一つずつを欠損させたショウジョウバエの変異体を作り、体重(mg)をオス(m)とメス(f)で測定している。赤が変異体の体重、黒がコントロールの体重で、赤 vs 黒の t 検定を行っている。


合計 19 回の t 検定が一つの図で行われていることになるが、実際にはこれは OK。ここではたまたま同じグラフに示しているので t 検定を繰り返しているように見えるが、これは 2 つのバーのグラフが 19 個並んでいるのと同じである。実際に問題となるのは下の図のような場合。



文献 4 の図。Western blot のバンドの太さを 3 群で比較しており、これが t 検定の繰り返しで、ANOVA を用いるべき事例である。


標準化されたデータに対する t 検定

図のように、コントロール群の値が全て 1 でエラーバーがなく、実験群の値だけにエラーバーがついている図を見たことがあるだろうか。



個人的には、標準化は情報量が低下するので好きではない。たとえば以下のようなデータ処理も可能である。

  • マウスから細胞を初代培養する。
  • 薬剤 A をかけた実験群 (右図の 2) と、A の溶媒のみをかけた対照群 (右図の 2) について、何かを測定して棒グラフにする。
  • 初代培養の条件がうまく整わないので、実験ごとに値が大きく違ってしまうが、薬剤 A の効果は一定で、いつも測定値は 1.5 倍ぐらいになる。
  • そこで、それぞれの実験で常に対照群の値を 1 として標準化し、これを 5 回繰り返して右のグラフを作る (N = 5)。
  • 対照群のデータは、N = 5 だが全て値が 1 なので、エラーバーの長さは 0 になる。

薬剤 A の効果について知りたい実験であり、初代培養の条件の影響を排除することは必ずしも悪いことではない。しかし、標準化したあとのデータに対して t 検定をかけることは誤りである と思う。なぜならば、t 検定の前提条件として母集団が正規分布に従うことがあるが、値が全て 1 である対照群からは、母集団の正規性を想定することができないためである。

この標準化が、t 検定の p 値に与える影響について、簡単なプログラムを組んで調べてみた。手順は以下の通り。

  • 集団 a は、平均値 1、標準偏差 0.5、要素 n 個で正規分布に従う。
  • 集団 b は、平均値 1.5、標準偏差 0.75、要素 n 個でこれも正規分布に従う。
  • n の値を 2 から 50 まで変化させたときに、a と b を t 検定かけたときの p 値がどのように変化するかを調べた。この結果が下の棒グラフ 1 で、一番左の坊が n = 2 、一番右が n = 50 である。
  • 下の棒グラフ 2 は、要素 n 個で値が全て 1 の集団 c と、要素 n 個で値が全て b/a の集団 d についての同じグラフである。b の値を、a の値で標準化したあとに t 検定をかけているということになる。

ここからわかることは、n の値が小さいときは、おそらく標準化によってバラツキか見かけ上少なくなるため (とくに a 群 → c 群の変換によって)、p 値は標準化を行った 2 の方が小さい 傾向を示す。

しかし、正しい t 検定である 1 では、p 値が n に応じて順調に小さくなるのに対し、2 ではあまり小さくならないようである。c 群が不自然な分布 (一様分布) をしていることが悪い影響を与えているのではないかと思う。


広告

コメント欄

一言コメントをどうぞ! (100 字まで)

このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. 山中ら 2009a. 分子生物学、生化学、細胞生物学における統計のポイント. 蛋白質核酸酵素 53, 1792-1801.
  2. Gronke et al. 2010a. Molecular evolution and functional characterization of Drosophila insulin-like peptides. PLoS Genet 6, e1000857.
  3. t検定をばかにしてはいけない。の巻き。 Link: Last access 2018/06/03.
  4. Kawada et al. 2013a. High concentrations of L-ascorbic acid specifically inhibit the growth of human leukemic cells via downregulation of HIF-1a transcription. PLoS ONE 8, e62717.
  5. Okumura's Blog; 2 段階 t 検定の是非. Link: Last access 2018/06/03.
  6. 統計勉強: 等分散性の検定について. Web.
  7. Welch検定が主流、単純 t 検定や ANOVA は時代遅れ:Statwingの話題から. Link.
  8. Rochon et al. 2012a. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Med Red Method 12, 81.
  9. Square Root Transformation. Link: Last access 2018/07/20.