標準化されたデータに対する t 検定、標準化の是非

UB3/statistics/group_comparison/t_test_standardized

このページの最終更新日: 2024/09/30

  1. 標準化されたデータに対する t 検定

広告

標準化されたデータに対する t 検定

図のように、コントロール群の値が全て 1 でエラーバーがなく、実験群の値だけにエラーバーがついている図を見たことがあるだろうか。



このようなグラフは、たとえば以下のようなデータ処理によって生まれると予想される。

  • マウスから細胞を初代培養する。
  • 薬剤 A をかけた実験群 (図の 2) と、A の溶媒のみをかけた対照群 (図の 2) について、何かを測定して棒グラフにする。
  • 初代培養の条件がうまく整わないので、実験ごとに値が大きく違ってしまうが、薬剤 A の効果は一定で、いつも測定値は 1.5 倍ぐらいになる。
  • そこで、それぞれの実験で常に対照群の値を 1 として標準化し、これを 5 回繰り返して右のグラフを作る (N = 5)。
  • 対照群のデータは、N = 5 だが全て値が 1 なので、エラーバーの長さは 0 になる。

広告

薬剤 A の効果について知りたい実験であり、初代培養の条件の影響を排除することは必ずしも悪いことではない。しかし、個人的には情報量が低下するので好きではない。

こうした好みの問題以上に、標準化したあとのデータに対して t 検定をかけることは誤りである と考えられる。なぜならば、t 検定の前提条件として母集団が正規分布に従うことがあるが、値が全て 1 である対照群からは、母集団の正規性を想定することができないためである。

この標準化が、t 検定の p 値に与える影響について、簡単なプログラムを組んで調べてみた。手順は以下の通り。

  • 集団 a は、平均値 1、標準偏差 0.5、要素 n 個で正規分布に従う。
  • 集団 b は、平均値 1.5、標準偏差 0.75、要素 n 個でこれも正規分布に従う。
  • n の値を 2 から 50 まで変化させたときに、a と b を t 検定かけたときの p 値がどのように変化するかを調べた。この結果が下の棒グラフ 1 で、一番左の坊が n = 2 、一番右が n = 50 である。
  • 下の棒グラフ 2 は、要素 n 個で値が全て 1 の集団 c と、要素 n 個で値が全て b/a の集団 d についての同じグラフである。b の値を、a の値で標準化したあとに t 検定をかけているということになる。

ここからわかることは、n の値が小さいときは、おそらく標準化によってバラツキか見かけ上少なくなるため (とくに a 群 → c 群の変換によって)、p 値は標準化を行った 2 の方が小さい 傾向を示す。

しかし、正しい t 検定である 1 では、p 値が n に応じて順調に小さくなるのに対し、2 ではあまり小さくならないようである。c 群が不自然な分布 (一様分布) をしていることが悪い影響を与えているのではないかと思う。


広告

References

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。