新・エラーバーの意味と正しい使い方

statistics/basics/error_bar
2018/04/20 更新

  1. 概要: エラーバーとは
  2. エラーバーの種類
    • データ区間を示すエラーバー
    • 信頼区間を示すエラーバー
    • 標準偏差を示すエラーバー
    • 標準誤差を示すエラーバー
  3. エラーバー 8 つのルール

広告

概要: エラーバーとは

エラーバー error bar とは,図のような棒グラフに付いているバーのことで,一般に以下のいずれかを示す (1)。図は文献 2 より。

  • データ区間 range
  • 信頼区間 confidence intervals
  • 標準誤差 standard error, SE
  • 標準偏差 standard deviation, SD


折れ線グラフや散布図にもつくことがある。

エラーバーが短いほうがバラツキの少ない良いデータのように見える。しかし,異なるエラーバーは異なる情報を伝えるため,その意味を正確に理解するとともに,エラーバーが何を表しているかを図の説明にはっきりと書くことが重要である。

このページでは,エラーバーの種類,解釈などとともに、文献 1 で提唱されているエラーバーに関する 8 つのルールを紹介する。科学論文 を読んだり書いたりする場合に参考にしてほしい。


エラーバーの種類

データ区間を示すエラーバー

実際のデータの分布を示すエラーバー。文献 1 では説明されているが,実際には見たことがない。



信頼区間を示すエラーバー

更新予定。


広告

標準偏差、標準誤差のエラーバー

標準偏差 SD、標準誤差 SE のエラーバーの特徴をまとめると,以下の表のようになる。標準偏差,標準誤差のページ には,SD, SE の説明や n を増やすシミュレーションの図などが載っているので,そちらも参考にして下さい。


標準偏差 SD 標準誤差 SE
見た目 長くてかっこ悪い 短くて良いデータに見える
意味

母集団および標本集団のバラツキを示す

母集団の平均値が収まる範囲を示す

n が増えると 母集団の SD に近づく 0 に近づく
使い方

母集団のバラツキにも興味があるとき

平均値に興味があり,その精度を問題にしたいとき


使い方については,文献 4 の説明が秀逸である。少し改変しつつ,同じ説明を使わせて頂く。

薬剤 1, 薬剤 2 を投与したとき,効果の平均値が同じ値であった,という結果が下のグラフである。しかし,データのバラツキ具合が両者で異なっていた。 1 の方が効果が均一で,良い薬剤であるという結論を導きたい。



このときは,SD のエラーバー が適当である。

データが正規分布 normal distribution に従うとき,平均値 ± SD の範囲にデータの約 3 分の 2(68.27%)が,平均値 ± 2SD の範囲にデータの約 95% が含まれる。したがって,平均値 ± SD のグラフを眺めることで,元のデータの分布を推察することができる のである。

もっとも,n がわかっていれば SE エラーバーから SD エラーバーを推測することができるので,SE のエラーバーからもデータの分布についての情報は得ることができる。

一方、SE エラーバーは、次のようなデータで有効である。



図は,乳酸が神経の活動 (発火) を抑制することを示した実験の結果で,乳酸の IC50 を算出するために使われている (5)。プロットされている値は,標本平均であり,真の値 (母集団の平均値) を意味しない。しかし,一定の確率で SE エラーバーの範囲内に母平均があると考えてよい

このように,平均値を使って何かの結論を導きたいときには,その平均値の精度を示す SE のエラーバーが有効である。


エラーバー 8 つのルール

1. 図の説明に、エラーバーが何を意味するか書く。

つまり、SE のエラーバーであるか SD のエラーバーであるかを示すということ。


2. 図の説明に n を書く。

n は Materials & Methods でも書くが、図の説明にも書くべきである。


3. エラーバーと統計は、独立した実験に対して適用される。

ルール 2 と 3 は,サンプル数 n と深く関連している。つまり,独立な試料または実験の数と,実験の繰り返し数 replicates とを区別するべきであるということである。

たとえば、「何回か実験を繰り返して,代表的な例 representative results を示した」 というケースをみることがある。この図にエラーバーがついている場合,これは試料全体のバラツキを反映しないと思われる。つまり、n = 5 の実験を 3 回繰り返したとして、そのうちの 1 回分を代表的な例として示しているならば、それは n = 5 から得られたバラツキである。

本来は、このような計算方法でエラーバーをつけるべきではない。全ての独立した実験の結果をプールし,各データから計算されたエラーバーをつけるのが正しい (1)。


4. 通常は対照群との比較に興味があるはずなので,SD ではなく,SE または信頼区間のエラーバーをつけるべきである。

ただし,サンプル数 n が少ない場合は,棒グラフにするよりもデータポイントをプロットする方がよい。


5. エラーバーの長さから,母集団の平均値の範囲を見積もることができる (意訳)。

「95% 信頼区間のエラーバーは,95%の確率で母集団の平均値 µ を含むことになる。n > 10 のとき,標準誤差 SE のエラーバーを約 2 倍すると 95% 信頼区間と同程度の長さになる。n = 3 のときは,約 10 倍しなければならない。」のような内容が,ルール 5 として書かれている (1)。


6, 7. エラーバーの長さから,有意差があるかどうか推察することができる (意訳)。

n = 3 の 2 つのデータ群で,SE エラーバーがちょうど重ならないぐらいのとき,P 値は 0.05 に近い値である。n > 10 のとき,SE と同じぐらいの差が P = 0.05, SE の 2 倍の差が P = 0.01 程度と考えてよい(1)。

n = 3, 95% 信頼区間のエラーバーがあるとき,エラーバーがほぼ重なっている場合に P = 0.05 程度である。半分重なっていると P = 0.01 程度である(1)。


8. 同じグループの繰り返し測定では,ルール 5 - 7は適用できない。 (意訳)。

繰り返し測定の場合,それぞれの値が独立でないために,有意差があるかどうか見積もるためにエラーバーを使うことができない。 (1)。



広告

コメント欄

一言コメントをどうぞ! (100 字まで)

フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。


References

  1. Cumming et al. 2007a. Error bars in experimental biology. J Cell Biol 177, 7-11.
  2. Cui et al. 2012a. Propofol prevents autophagic cell death following oxygen and glucose deprivation in PC12 cells and cerebral ischemia-reperfusion injury in rats. PLoS One 7, e35324.
  3. 標準偏差と標準誤差:どちらを使うべきか? Web pdf.
  4. 統計学入門. Web.
  5. Bozzo et al. 2013a. Lactate modulates the activity of primary cortical neurons through a receptor-mediated pathway. PLoS One 8, e71721.