棒グラフ: 解釈、原点を 0 にすべきかなど

UB3/english/paper/figure_bar

このページの最終更新日: 2021/07/10

  1. 概要: 棒グラフとは
  2. 原点は 0 であるべきか
    • 0 にすべき派
    • 0 にしなくてもいい派
  3. 棒グラフよりも好ましい図
    • Box plot
    • Bee swarm plot
    • Violin plot

広告

概要: 棒グラフとは

棒グラフとは、データの 平均値 を比較するためによく使われるグラフである。例えば以下のようなもの。

その他、いくつか棒グラフの画像を示しておく。クリックで見られるようになっている。

▼ クリックで展開


棒グラフには、以下のようなメリットおよびデメリットがある。

メリット

  • 一目で値が何倍ぐらいになっているのかわかる。

デメリット

  • 多くの場合、生データの分布がわからない。エラーバー でばらつきの大きさは推定できるが、均等にばらついているのか外れ値があるのかなどは見えないまま。

このページでは、棒グラフの意義や解釈に関する内容をまとめる。以下のような関連ページがある。


広告

原点は 0 であるべきか

しばしば議論になる問題である。No と Yes の両方の立場からまとめてみる。原点を 0 以外にすることのほか、原点を 0 にしつつ斜線などで一部を「省略」することも同じようなものと考える。

0 にすべき派

0 にすべき派の人は、棒グラフでは 棒の長さの比がデータの比になっているべき と考える。つまり、値が 0.8 と 1.0 のとき、棒の長さの比も 8 : 10 でなければならない。したがって、原点は 0 でなくてはならない。

この場合、値の比に意味があるわけなので、必然的に棒グラフで表されるデータは 比例尺度 のデータでなければならない。したがって、例えば摂氏温度で棒グラフを書くのも正しくない。ケルビン温度ならば、原点を 0 にとって棒グラフにできる。

「グラフの軸をゼロから始めないのはうそつきか」というブログ記事 (3) によると、この主張の根拠は Huff の著書 (Ref. 4) であるらしい。

妥協案として、軸やグラフに波線を入れる方法があるが、これも根本的な違いはない。


0 にしなくても良い派

ネットでは「0 にすべき派」が優勢だが、私は、この点についてフレキシブルである。つまり、原点が 0 でないグラフを見ると「普通じゃない」とは思うものの、著者がそう示したいなら OK という立場。

そもそも、棒グラフで伝わる情報は非常に少ない。せいぜい平均値とエラーバーが示す標準偏差または標準誤差である。つまり、Results に数値で 120 ± 15 と書く以上の情報は何もないわけだ。

では、なぜこれをわざわざ図にするのか? 数値の差を目で見てわかりやすく示すためるためである。

別の言い方をするならば、棒グラフを載せている以上、心には「差を強調したい」という邪な意図があるわけである。それならば、なぜ原点を変えてもっとも強調できる形で示されたグラフを叩くのか? 「罪を犯したことのないものが、まず石を投げなさい」という話である。

著名な研究者であった加藤先生の稿に次の表現があるように (2)、「原点 0」は生命科学業界の統一ルールではない のもポイントである。


骨密度は、数%の差異で骨強度に重大な影響をあたえる.左に示す表わし方では、有意差があってもわかりにくい.そのため、骨代謝の研究分野では、右のように、下部を切り取ることで差異を強調したかたちで表わすのが普通である.これは、決して誇張したわけではない.


実際にいくつか例を拾っておこう。いわゆる ハイインパクト の雑誌から。雑誌名 + bar graph でイメージ検索すれば見つかる。もちろん、原点がゼロのグラフの方が圧倒的に多いが、「直ちにリジェクト」というレベルの誤謬ではないことは明らかだろう。


La Rosa et al. eLife 5, e20750, 2016a.


Krizman et al. PNAS 109, 7877-7881, 2012a.


Regenbogen et al. PNAS 114, 6400-6405, 2017.


数値を棒グラフで示すことによる強調はありだが、原点を 0 以外にすることによる強調はなし、というのを「自分ルール」として持っておくのは良いことだと思う。

しかし、私はこの「自分ルールを絶対的なルールのように語る」ことが好きではない。はっきり言って、怪しいグラフを作ることよりも反感を覚える。

もし、あなたがシニアな研究者として他人にグラフの作り方を教える機会があれば、さまざまな考え方を説明したあとに「自分はこの立場をとる。この論文では私が責任ある立場なので従って欲しいが、あなたに強い主張があるならば、その意思を尊重する」という議論をするべきだと思う。

結論: 原点が 0 でない棒グラフを見つけて鬼の首を取ったように叩くのは見苦しい。


棒グラフよりも好ましい図

実際、棒グラフはもはや時代遅れである。棒グラフのような平均値の差を表す図表として、box plot, violin plot, bee swarm plot などが使われるようになってきた。


Box plot

Box plot は以下のような図のことで、日本語では「箱ひげ図」などという。棒グラフよりも情報量が多い (参考: MATLAB での box plot の作り方)。使う統計パッケージなどによって違いがあるが、一般的には以下のような情報が含まれる。

  • 箱の中にある横線が中央値。
  • 箱は四分位点。
  • 髭の先にある棒は最大値および最小値。
  • 外れ値がある場合、髭の外側に直接プロットされる。

Public domain figure.


文献 1 より。


Bee swarm plot

Bee swarm plot は、日本語では、スウォームプロットとカタカナで書くことが多い。→ R で bee swarm plot を作る

文献 5 より。

Swarm plot と box plot を重ねたもの (J Neurol Neurosurg Psychiatry, 87, 650-655, 2015)。

Bee swarm box-plot data with means and SDs showing the differences between groups. Bee swarm box-plot data with means and SDs illustrate the differences (Δ) in patients with orthostatic headaches (Group A, green), without (Group B, red) and patients without an spontaneous intracranial hypotension (SIH) diagnosis (C1, grey, internal control and C2, black, external control).


Violin plot

Violin plot とは、バイオリンの形をした以下のような図である (7)。


Violin plot が何を表しているかについては、文献 6 に丁寧な解説がある。


広告

References

  1. By Ruediger85 (changed language). Original by RobSeb (Own work) [CC-BY-SA-3.0 (https://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons - http://upload.wikimedia.org/wikipedia/commons/b/b1/Elements_of_a_boxplot.svg, CC 表示-継承 3.0, https://commons.wikimedia.org/w/index.php?curid=21134495による
  2. 加藤 2009a. 微妙なデータをどう表現するか. 骨研究分野での実験データ解釈を例として. 化学と生物 54, 864-870.
  3. グラフの軸をゼロから始めないのは嘘つきか. Link: Last access 2018/07/27.
  4. Huff, 1954. How to Lie with Statistics. New York: W.W. Norton.
  5. Muhla et al. 2020a. Impact of using immersive virtual reality over time and steps in the Timed Up and Go test in elderly people. PLoS ONE 15, e0229594.
  6. Hu et al. 2020a. Become competent within one day in generating boxplots and violin plots for a novice without prior R experience. Methods Protoc 3, 64, 2020.
  7. Kodra et al. 2020a. physics-guided probabilistic modeling of extreme precipitation under climate change. Sci Rep 10, 10299.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment