群間比較の統計検定:
検定方法の選び方、実践的な注意点など

statistics/group_comparison/group_comparison
群間比較に関する上位のページです

このページの最終更新日: 2021/07/08


内容が増えてきたら独自のページを作っています。多くの項目は、このページに簡単なサマリーがあり、詳細をリンク先の別のページで説明しています。

  1. 検定方法の選び方
  2. 事前検定の是非
  3. 計数データの t 検定
  4. t 検定の繰り返しと多重検定
  5. 標準化されたデータに対する t 検定

広告

検定方法の選び方

まずは、検定するデータの種類をチェックする。

  • 離散型のデータ → 「計数データの検定」を読み、専用のページへ。
  • 連続型のデータ → 以下のフローチャートに従って進む。


最初の判断基準は群の数である。

1 つの群の平均値がある値に等しいかどうかを知りたい場合には、z 検定平均値と比較する t 検定 が使われる。

2 群の場合には、母集団の分布が問題となる。母集団が特定の分布に従うことを仮定した検定をパラメトリック検定と呼び、そうでないものをノンパラメトリック検定という。上の表では 正規分布 に限定している。以下のいずれかの検定を使う。

3 群以上の場合は、多重検定を行うことになる。上の表にはパラメトリックな多重検定である ANOVA およびその post-hoc テスト のみが示されている。

ノンパラメトリックな検定では、Kruskal-Wallis rank sum test が ANOVA に相当する。post-hoc テストでは、Steel-Dwass が Tukey-Kramer のノンパラメトリック版である。

離散型データの検定

  • A さんと B さんが今まで食ったパンの枚数を比較する。
  • 組織切片で免疫染色を行い、染まった細胞の数を A 群と B 群で比較する。
  • A 群と B 群にストレスを与え、生き残った個体数を比較する。

このようなデータは計数データであり、整数以外の値を取らない。したがって分布は正規分布にはならず、離散型の分布になる。このようなデータには、正規分布を仮定する t 検定を適用することはできず、ノンパラメトリックな Mann-Whiteney の U 検定カイ二乗検定 を使う必要がある。

しかし、リアルタイム PCR などで測定する mRNA 量も厳密には計数データである。これは、上で述べた 「数が十分に多く、分布が対称な場合には、だいたい t 検定で問題ない」ということに基づいていると思われるが、この点も頭に入れておく必要があるだろう。

詳細は 計数データの検定 のページへ。


広告

事前検定の問題

ANOVA などの多重検定にも関係する話であるが、t 検定を例に考えてみる。

t 検定は、正規分布 normal distribution (図) に従うデータに対する検定である。t 検定の前提条件は、Livingston にまとめられているようである (8I)。母集団が skew していると、type I error、すなわち「本当は差がないのに、差があるとしてしまう誤り」のリスクが大きくなる (8I)。

したがって、まず別の検定をかけて正規性を判定し、正規分布しているならば t 検定を行うという手順を踏みたくなる。

この際、考慮すべきポイントは以下の 2 点である。正規性を例に説明しているが、等分散性を事前検定する場合でも全く同じである。

  1. 最初に正規性の検定を行い、確認できたら t 検定。この手順を踏むと、同じデータに対して 2 回統計をかける ことになる。これは 2 重検定であり、基本的に避けるべき。全体の有意水準が 5% に収まらなくなる。
  2. 正規性の検定における 帰無仮説 は、「正規分布する」である (8)。この仮説が棄却できない場合、「正規分布する」として t 検定をすることになるが、この状態は論理的に「正規分布するという仮説を棄却する証拠が不十分である」ということで、「正規分布する」ことを証明してはいない。したがって「正規分布するために t 検定をした」という論理に正当性がない。

私は、基本的には事前検定には反対で、最初からノンパラメトリックなテストを行うべきという立場である。この点については、事前検定の是非 で解決法を含めて検討している。

t 検定の繰り返しと多重検定

t 検定を繰り返すことによっても type I error の確率が高まるので、避けなければならない。このような場合は分散分析と多重検定を用いる。一般には ANOVA である。

これは統計の教科書によく書かれている基本事項であるが、実際にどのような意味なのかを少し考察してみる。

図 (Ref 2)では、何種類もある dlip という遺伝子について、一つずつを欠損させたショウジョウバエの変異体を作り、体重 (mg) をオス (m) とメス (f) で測定している。赤が変異体の体重、黒がコントロールの体重で、赤 vs 黒の t 検定を行っている。


合計 19 回の t 検定が一つの図で行われていることになるが、実際にはこれは OK。ここではたまたま同じグラフに示しているので t 検定を繰り返しているように見えるが、これは 2 つのバーのグラフが 19 個並んでいるのと同じである。

統計に細かい査読者の場合、これらは異なるデータであるため、19 個のパネルに分けるように言ってくるかもしれない。そちらの方が正しいのだが、グラフの見やすさから、上記のような表現方法も一般に受け入れられている。

実際に問題となるのは下の図のような場合。



文献 4 の図。Western blot のバンドの太さを 3 群で比較しており、これが t 検定の繰り返しで、ANOVA を用いるべき事例である。

標準化されたデータに対する t 検定

図のように、コントロール群の値が全て 1 でエラーバーがなく、実験群の値だけにエラーバーがついている図を見たことがあるだろうか。

このようなデータに対して t 検定をかけるのは誤りであると考えている。詳細は 標準化されたデータに対する t 検定 のページにまとめた。




広告

References

  1. 山中ら 2009a. 分子生物学、生化学、細胞生物学における統計のポイント. 蛋白質核酸酵素 53, 1792-1801.
  2. Gronke et al. 2010a. Molecular evolution and functional characterization of Drosophila insulin-like peptides. PLoS Genet 6, e1000857.
  3. t検定をばかにしてはいけない。の巻き。 Link: Last access 2018/06/03.
  4. Kawada et al. 2013a. High concentrations of L-ascorbic acid specifically inhibit the growth of human leukemic cells via downregulation of HIF-1a transcription. PLoS ONE 8, e62717.
  5. Okumura's Blog; 2 段階 t 検定の是非. Link: Last access 2018/06/03.
  6. 統計勉強: 等分散性の検定について. Web.
  7. Welch検定が主流、単純 t 検定や ANOVA は時代遅れ:Statwingの話題から. Link.
  8. Rochon et al. 2012a. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Med Red Method 12, 81.
  9. Square Root Transformation. Link: Last access 2018/07/20.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment