多重検定について
UB3/statistics/group_comparison/multiple_comparison
このページの最終更新日: 2024/09/30- 多重比較とは
- なぜ多重検定を行わなければならないか
- 同じような比較がたくさんあるパターン
- 一つのデータに複数の統計をかけているパターン
- 多重比較の補正
広告
多重比較とは
群間比較の基礎 のページのフローチャートを載せておく。このページでは、群が 3 個以上のときに行う多重検定についてまとめる。
上の表にはパラメトリックな多重検定である ANOVA およびその post-hoc テスト のみが示されている。ノンパラメトリックな場合も含めて整理しておこう。
パラメトリック |
ノンパラメトリック |
|
---|---|---|
一元 (対応なし) |
|
|
一元 (対応あり) |
|
|
二元 |
|
広告
なぜ多重検定を行わなければならないか
多重検定を行わなければならない理由は、本来は有意差がないのに、あるとしてしまう type I error の確率が高まるためである。
これは統計の教科書によく書かれている基本事項であるが、実際にどのような意味なのかを少し考察してみる。
同じような比較がたくさんあるパターン
図 (Ref 2)では、何種類もある dlip という遺伝子について、一つずつを欠損させたショウジョウバエの変異体を作り、体重 (mg) をオス (m) とメス (f) で測定している。赤が変異体の体重、黒がコントロールの体重で、赤 vs 黒の t 検定を行っている。
合計 19 回の t 検定が一つの図で行われていることになるが、実際にはこれは OK とされることが多い。ここではたまたま同じグラフに示しているので t 検定を繰り返しているように見えるが、これは 2 つのバーのグラフが 19 個並んでいるのと同じである。グラフの見やすさから、上記のような表現方法が一般に受け入れられている。
ただし、本質的に問題がないわけではなく、2 サンプルの NGS データやマイクロアレイデータでこのような比較をする場合には、P 値に多重検定の補正をかけるのが一般的である。
同じ考え方で、論文に図がたくさんあればあるほど type I error の確率は高まる。したがって、論文全体の結論を確かなものにするためには、データ量が多い論文ほど多重検定の考え方を適用しなければならないような気がする。この問題に関する議論はまだ見たことがない。
一つのデータに複数の統計をかけているパターン
下の図 (Ref 4) のような場合には、問題がもっとクリアである。
この図では Western blot のバンドの太さを 3 群で比較している。ANOVA と post-hoc test を使っているのだと思うが、Methods には t-test しか書かれておらず、もし t-test を繰り返しているのなら、典型的な多重検定の事例である。
多重検定の補正
複数の群がある場合は、ページ上方の 多重比較とは にあるフローチャートに従い、ANOVA や post-hoc test を実施すればよい。
上の赤黒の図のような、同じような比較がたくさんあるパターンでは、
R では p.adjust 関数 を使う。詳細はリンク先を参照のこと。
広告
References
山中ら 2009a. 分子生物学、生化学、細胞生物学における統計のポイント. 蛋白質核酸酵素 53, 1792-1801.Gronke et al. 2010a. Molecular evolution and functional characterization of Drosophila insulin-like peptides. PLoS Genet 6, e1000857.- ページ編集のため削除
Kawada et al. 2013a. High concentrations of L-ascorbic acid specifically inhibit the growth of human leukemic cells via downregulation of HIF-1a transcription. PLoS ONE 8, e62717.- Okumura's Blog; 2 段階 t 検定の是非. Link: Last access 2018/06/03.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。