HARKing について

UB3/english/paper/harking

このページの最終更新日: 2025/01/05

概要: HARKing とは
HARKing がいけない理由
- Type I error の原因となる
HARKing 擁護派の意見
現時点での結論
- 追記: NGS 解析と確認のリアルタイム PCR

Harking について

HARKing とは、hypothesizing after the results are known の略語である。文字通り、結果を見てから仮説を作り、その仮説が最初にあったという書き方で論文化する行為である。

HARKing という言葉は Kerr 1998 の論文が最初のようだ (3)。2021 年 11 月現在、Google Scholar で 1500 回ほど引用されている。

この「仮説」には、論文のストーリー上の仮説を指す場合と、統計検定における帰無仮説を指す場合があるようだが、結局は論文のストーリーに沿って仮説検定をすることになるので、結局は同じことになるのか？

このページでは、以下の HARKing を例にして考察してみたい。

薬剤 A をマウスに投与したが、どんな効果があるか予測できなかったので、血圧降下作用、鎮痛作用、抗腫瘍作用・・・など複数の項目をテストした。

血圧降下作用のみ有意だったので、他のデータは出さずに、「薬剤 A はマウスの血圧を降下させる」という仮説を検証した論文として発表した。

HARKing がいけない理由

Type I error の原因となる

Harking がいけない理由は、帰無仮説を間違って棄却することが多くなる (Type I error) ということのようだ。ここを詳しく書いていない資料が多いのだが、次の UC Davis の pdf ファイルは比較的詳しい (2)。まずは英語でそのまま引用してみる。

Results in hypotheses that are always confirmed and never falsified.
Hence HARKing harms the progress of science by preventing the research community from identifying already falsified hypotheses.
HARKing leads to irreproducibility or the ‘Replication Crisis’.
When hypotheses are uniquely tailored to a given sample, it increases the probability that the findings are not reproducible or generalizable in the population of interest. This is the key concept.

意訳してみると、こんな感じだろう。

仮説が常に正しいことになる。つまり、「仮説通りである」という論文だらけになる。
間違いであることがわかった仮説が、科学コミュニティに共有されなくなる。
再現性がとれなくなる。
仮説がサンプル集団に特異的に作られることになるので、任意の集団でその仮説が正しいという可能性が低下する。すなわち、研究成果を一般化しにくくなる。

4 番は、キーポイントと書かれているだけあってわかりやすい気がする。

別の例 (5)。

For example, if a researcher tests 20 hypotheses with an alpha level of .05, then he has a 64.15% chance of making at least one Type I error. However, if his results confirm only one of these hypotheses, and he decides to suppress the other 19 disconfirmed hypotheses, then he will give the incorrect impression that he only conducted a single hypothesis test and that, consequently, he only had a 5% chance of making a Type I error.

「統計検定を繰り返すと、有意水準が上がる」という多重検定の問題である。Type 1 error の問題と同じ。

ちょっと話がずれるのだが、データがたくさんある論文は全体としての信頼性が低いということにならないのか？ 5% 有意水準で検定している図が 20 個ある論文の、論文全体としての有意水準は高いってことになるはずだが、この議論は見たことがない。別々のデータで、一つのデータに繰り返し統計をかけているわけじゃないから大丈夫なのだろうか。ご存知の方がいたら教えてください。

もう一つ。これが一番わかりやすいか。

仮説生成に使ったデータで、仮説を検定することは統計的に意味がない。有意差が出るとわかりきっているので。
別のセットのデータで、その仮説を検定することには意味がある。
HARKing は「仮説生成に使ったデータで、その仮説を検定している」という統計的に意味のない作業を隠蔽し、意味があるように論文にする行為である。

これに対する考えは、次の項目に。その仮説が、仮説生成に使ったデータに specific なとんでもないものではなく、一般的な知識から導けるようなものであれば、害はないのではないか。

HARKing 擁護派の意見

ただし、誰もがこの HARKing 観に賛同しているわけではないようだ。たとえば Rubin (4) は、Kerr が示した 12 の HARKing のコスト (問題点) に一つ一つ反論し、"It is concluded that it is premature to assume that HARKing has led to low replication rates" と述べている。

いずれ時間をとってもっと調べてみたいが、現時点での考えはこんな感じ。Ref. 4 のまとめから。

Translating Type I errors into hard-to-eradicate theory. という「タイプ I エラーの増大」が一番の問題とされていると思う。これに対しては、以下の回答が合理的に思える。

The overfitting of post hoc hypotheses to Type I errors is not possible when those hypotheses are deduced from a priori theory and evidence. Flexible theorizing is possible, but it can be identified and taken into account in estimates of relative verisimilitude.

つまり、後付けの仮説であっても、その仮説に十分な a priori theory and evidence があれば、type I error は起こらない。

思うに、Kerr 1998 (3) が心理学の雑誌の論文であることからも考えられるように、HARKing という概念は、特定のサンプル・データから、誰も見たことがないようなとんでもない心理学上の仮説を導いて検証することに対する警鐘なのではないだろうか (論文を読んでチェックしたい)。

分子生物学などでは、もともと一般化される概念が多く、post hoc な仮説であっても、a priori として考えるに十分な証拠が揃っている。要は、その研究者が思いついたかどうかという程度の問題であるのに、「HARKing は不正！」という概念が独り歩きしているようにも思える。

現時点での結論

血圧降下作用のみ有意だったので、他のデータは出さずに、「薬剤 A はマウスの血圧を降下させる」という仮説を検証した論文として発表した。

もう一度、この例に戻って考えてみる。

一番の大きな問題は、これを仮説検証型の論文として発表しなければならないという研究業界の空気である。

研究に仮説は必要か？のページで述べているように、これは薬剤 A の効果をいろいろ見てみる「仮説探索型」の研究である。したがって、素直に「いろいろ調べてみました。p 値はちょっと補正しました。」と発表すべき話であり、それが評価されるようなシステムを作るのが一番良いと考える。

HARKing によって type I error が起こりやすくなるという問題は確かにあると思うので、その仮説が a priori ならば問題ないというのも、ちょっと極端な気がする。よって Rubin (4) にも完全に賛同はできない。

ただ「HARKing はダメ」と盲目的に繰り返す方が私は嫌いであり、このあたりは Predatory journal の議論に通じるところもある。そもそも p 値による「有意差」を重視しすぎることが問題となっているこの時代に、type I error という概念をどこまで尊重するのかという話である。上に書いたように、仮設探索型の研究として、やったことを有意差にこだわらず素直に発表すればいい。

当面の策としては、文献 6 にまとめられている新ガイドラインが合理的に思える。心理学関係の学会が 2012 - 2014 ごろに制定したもので、一部を抜粋する。

修正なしに同一データに対して複数の検定を行うことの禁止
データ分析の結果を見てデータ収集を止めることの禁止
データ分析の結果を見て観察，指標，項目，条件，参加者，行った実験などを除外して報告することの禁止
測定したすべての従属変数の報告
共変量分析は事前に計画し，探索的であると示す
追試の奨励
柔軟で多様な研究評価軸の維持

これらの点を全ての研究者が意識できるようにする。

また、これは査読の項目でも述べている管理人の主張であるが、わかっていない査読者にあたったときの保険として、査読者の権限を限定的なものにすること、ひいては「トップジャーナル」などという概念が研究者の将来に及ぼす影響を限定的なものにしていくことが、業界全体を長期的には健全なものにしていくだろう。

NGS 解析と確認のリアルタイム PCR

RNAseq でサンプル間で mRNA 量が違うことを示した後には、リアルタイム PCR でその確認をしたデータを載せるのが普通であった時代がある。

これは RNAseq による定量が正確性に欠けるため、リアルタイム PCR で検証する実験と考えていた。

実際に、RNAseq による mRNA 定量がかなり正確であることがわかってきて、リアルタイム PCR による検証を省いた論文が出てくるようになったので、多くの人もこのように考えていたのだと思う。

この記事を書いた後で気付いたのだが、これは HARKing 対策にもなっているので、継続すべき習慣のような気がする。

同一のサンプルを使っているなら、RNAseq の測定が正確であるかという検証にしかならない (こういう論文も多々ある) が、サンプルを作り直してリアルタイム PCR を行った場合は、RNAseq のデータを解析して得られた「遺伝子 A の mRNA 量は、サンプル 1 > サンプル 2」という仮説を別のサンプルで検証していることになる。

これは 1 つの論文に探索的パートと仮説検証パートがあるということで、結論を導くのにとても良くできた実験デザインと言える。

References

HARKing, p-hacking, asterisk-seekingを助長している学術界. Link: Last access 2021/11/21.
HARKing: What is it and why is it bad? Link: Last access 2021/11/21.
Kerr 1998a. HARKing: Hypothesizing after the results are known. Pers Soc Psychol Rev 2, 196-217.
Rubin 2022a. The consts of HARKing. Br J Philos Sci 73.
Rubin 2017a. When does HARKing hurt? Identifying when different types of undisclosed post hoc hypothesizing harm scientific progress. Rev General Psychol 21, 308–320.
池田, 平石 2016a. 心理学における再現可能性危機:問題の構造と解決策. 心理学評論 59 3–14.
Shaw 2017a. Advantages of starting with theory. Academy of Management Journal, 60, 819-822. HARKing のある論文はリジェクトされやすいと書いてあるが、完全には賛成できない。

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。