研究と仮説について

UB3/english/paper/hypothesis

このページの最終更新日: 2022/05/16

  1. 研究に仮説は必要か
  2. HARKing について
    • HARKing がいけない理由
    • HARKing 擁護派の意見

広告

研究に仮説は必要か

仮説検証型の他に、仮説生成型 (または仮説探索型) の研究がある。

また、仮説のある research は英語だと hypothesis-driven であり、これに対して data-driven という単語がある。PLoS Biol の author guideline には、data-driven research もウェルカムと書いてある。

参考: ブログ: 研究に仮説は必要か?

> ニュートンは仮説を設定しなかったという書き物 (6)。

  • グラント申請の話。NSF のガイドラインには hypothesis という言葉は一度も現れない。NIH でも一度だけ。なぜ執拗に仮説検証が求められるのか。
  • 仮説検証型でない研究を悪く言う言葉に fishing expedition というのがあるらしい。これはそのまま「釣り遠征」で、特段の目的なしに情報を求めに行くことをいう。グラント rejection の理由になるそうだ。
  • ダーウィンが航海に出かけたときには、specific hypothesis はなかった。自然選択の仮説は、島を見て回っているうちに生じたもの。現在の基準では、航海の予算は下りないだろう。
  • 結論: Hypotheses are all well and good. But in evaluating research proposals, the key criterion should be: Will the proposed work help us answer an important question or reveal an important new question we should have been asking all along?

広告

Harking について

HARKing とは、hypothesizing after the results are known の略語である。文字通り、結果を見てから仮説を作り、その仮説が最初にあったという書き方で論文化する行為である。とりあえず色々と情報をまとめておき、あとで整理したい。

この「仮説」には、論文のストーリー上の仮説を指す場合と、統計検定における帰無仮説を指す場合があるようだが、結局は論文のストーリーに沿って仮説検定をすることになるので、結局は同じことになるのか?

HARKing がいけない理由

Harking がいけない理由は、帰無仮説を間違って棄却することが多くなる (Type I error) ということのようだ。ここを詳しく書いていない資料が多いのだが、次の UC Davis の pdf ファイルは比較的詳しい (2)。まずは英語でそのまま引用してみる。


  1. Results in hypotheses that are always confirmed and never falsified.
  2. Hence HARKing harms the progress of science by preventing the research community from identifying already falsified hypotheses.
  3. HARKing leads to irreproducibility or the ‘Replication Crisis’.
  4. When hypotheses are uniquely tailored to a given sample, it increases the probability that the findings are not reproducible or generalizable in the population of interest. This is the key concept.

意訳してみると、こんな感じだろう。

  1. 仮説が常に正しいことになる。つまり、「仮説通りである」という論文だらけになる。
  2. 間違いであることがわかった仮説が、科学コミュニティに共有されなくなる。
  3. 再現性がとれなくなる。
  4. 仮説がサンプル集団に特異的に作られることになるので、任意の集団でその仮説が正しいという可能性が低下する。すなわち、研究成果を一般化しにくくなる。

4 番は、キーポイントと書かれているだけあってわかりやすい気がする。

別の例 (5)。

For example, if a researcher tests 20 hypotheses with an alpha level of .05, then he has a 64.15% chance of making at least one Type I error. However, if his results confirm only one of these hypotheses, and he decides to suppress the other 19 disconfirmed hypotheses, then he will give the incorrect impression that he only conducted a single hypothesis test and that, consequently, he only had a 5% chance of making a Type I error.


言ってることはわかるんだが、これだとデータがたくさんある論文は信頼性が低いということにならないか? 5% 有意水準で検定している図が 20 個ある論文の、論文全体としての信頼性は低いってことになるはずだが、この議論は見たことがない。ご存知の方がいたら教えてください。

もう一つ。これが一番わかりやすいか。

  • 仮説生成に使ったデータで、仮説を検定することは統計的に意味がない。有意差が出るとわかりきっているので。
  • 別のセットのデータで、その仮説を検定することには意味がある。
  • HARKing は「仮説生成に使ったデータで、その仮説を検定している」という統計的に意味のない作業を隠蔽し、意味があるように論文にする行為である。

これに対する考えは、次の項目に。その仮説が、仮説生成に使ったデータに specific なとんでもないものではなく、一般的な知識から導けるようなものであれば、害はないのではないか。


HARKing 擁護派の意見

もう少し調べてみてわかったこと。HARKing という言葉は Kerr 1998 の論文が最初のようだ (3)。2021 年 11 月現在、Google Scholar で 1500 回ほど引用されている。

ただし、誰もがこの HARKing 観に賛同しているわけではないようだ。たとえば Rubin (4) は、Kerr が示した 12 の HARKing のコスト (問題点) に一つ一つ反論し、"It is concluded that it is premature to assume that HARKing has led to low replication rates" と述べている。

いずれ時間をとってもっと調べてみたいが、現時点での考えはこんな感じ。Ref. 4 のまとめから。

Translating Type I errors into hard-to-eradicate theory. という「タイプ I エラーの増大」が一番の問題とされていると思う。これに対しては、以下の回答が合理的に思える。

The overfitting of post hoc hypotheses to Type I errors is not possible when those hypotheses are deduced from a priori theory and evidence. Flexible theorizing is possible, but it can be identified and taken into account in estimates of relative verisimilitude.

つまり、後付けの仮説であっても、その仮説に十分な a priori theory and evidence があれば、type I error は起こらない。

思うに、Kerr 1998 (3) が心理学の雑誌の論文であることからも考えられるように、HARKing という概念は、特定のサンプル・データから、誰も見たことがないようなとんでもない心理学上の仮説を導いて検証することに対する警鐘なのではないだろうか (論文を読んでチェックしたい)。

分子生物学などでは、もともと一般化される概念が多く、post hoc な仮説であっても、a priori として考えるに十分な証拠が揃っている。要は、その研究者が思いついたかどうかという程度の問題である。

別の言い方をすると、以下のような手順は明らかに問題。


  1. RNAseq などの大きなデータから、遺伝子 A と B が相関して変動しているのをみつけた。これらの遺伝子が関係しているという論文はほとんどなく、新しいデータと思われた。
  2. そこで、RNAseq のデータ解析を図 1 に示し、また遺伝子 A と B の結果を取り出して図 2 に示した。
  3. ただし、図 2 のデータの出どころは書かず、図 1 とは別に取ったデータのように見せかけた。


しかし、その他の論文から遺伝子 A と B の関係が十分予想され、単に研究者が不勉強で 1 を行うまでそれに気づかなかっただけならば、その HARKing は本当に悪なのか?

このような状況で HARKing を指摘しても説得力が低いために、真剣に考える人が少ないんじゃないか。また、単に探索型の研究として発表すればいいが、仮説検証型が「良い」研究とする雰囲気も大きな問題。


広告

References

  1. HARKing, p-hacking, asterisk-seekingを助長している学術界. Link: Last access 2021/11/21.
  2. HARKing: What is it and why is it bad? Link: Last access 2021/11/21.
  3. Kerr 1998a. HARKing: Hypothesizing after the results are known. Pers Soc Psychol Rev 2, 196-217.
  4. Rubin 2022a. The consts of HARKing. Br J Philos Sci 73.
  5. Rubin 2017a. When does HARKing hurt? Identifying when different types of undisclosed post hoc hypothesizing harm scientific progress. Rev General Psychol 21, 308–320.
  6. Newton didn’t frame hypotheses. Why should we? Link: Last access 2022/01/02.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment