ブートストラップとは

statistics/basics/monte_carlo_bootstrap
2018/03/17 更新

  1. 概要: ブートストラップとは

広告

概要: ブートストラップとは

オンラインの統計書 21 世紀の統計科学 による定義は以下の通り (2)。

ブートストラップ は、データ解析の確からしさを評価するための統計手法のひとつであり、Efron (1979) によって提唱された。誤差推定、信頼区間の構成、仮説検定などに用いられる。従来の複雑な数式に基づく理論を莫大な数値計算による単純なシミュレーションでおきかえる。


その他の文献にみられる説明:

  • 1 つの標本から 復元抽出 を繰り返して大量の標本を作製し、それらの標本を解析することで、母集団の性質などを分析する方法である (1)。

ランダムな試行を繰り返し、目的の値を近似的に求める方法を モンテカルロ法 Monte Carlo method という。広い意味で、ブートストラップ法はモンテカルロ法の一種とも言える。


広告

名前の由来と bootstrap 法の基本的アイディア

なお、bootstrap はブーツの上端につけられたつまみ革のことで、ブーツを履くときにこの部分をもって引っ張り上げる。転じて、「自力で〜する」「自力の、独力の」という意味を持つようになった英語である。

さらに、コンピューターの電源をつけたときに OS をロードする処理は、人間の手を借りずに自力で行われることから、このプロセスもブートストラップと呼ばれる。「ブート」という表現もある。

文献 3 に、名前の由来を含めた bootstrap 法のわかりやすい解説がある。これを参考に bootstrap 法の手順を説明する。


生物学実験における統計 - 統計を使う上で意識すべきこと のページにあるように、多くの研究では、母集団からのランダムサンプリングによって標本集団を作成し、標本集団の性質を調べることで、母集団の性質を推定する という手順を踏んでいる。これは、母集団の性質を直接調べることが困難なためである。


たとえば、グリーンアノール というトカゲを脅かしたときの音の大きさ A と、逃亡速度 B の間の ピアソンの相関 係数 r を求める研究を行うとする。

しかし、世界中のグリーンアノールを脅かして、逃亡速度を測定することは事実上不可能であるため、50 匹などのグリーンアノール (標本集団) に対して実験を行うわけである。しかし、得られた結果は全てのグリーンアノール (母集団) において通用することを想定しているため、実験データから母集団の性質を推定するという作業を行うことになる。

50 匹の実験データから、一つの相関係数 r が得られるわけであるが、これだけではこの r がどの程度確からしいのか判断することができない。ブートストラップ法では、得られた 50 個体分のデータに対して、以下の作業を行う (3)。

  1. N = 50 の標本から、1 個を無作為抽出して値を記録する。
  2. これを 50 回繰り返すと、新しい N = 50 の標本集団ができる。これについて r を算出する (2 個目の r)。
  3. この手続きを繰り返すことで、実際は 1 個の標本集団しかないのに、複数の r を得ることができる。したがって、r の分布を描くことができる!
  4. 得られた r の分布から、区間推定を行うことが可能である。
  5. なお、仮説検定からの一連のページに示したように、従来の統計学では、理論によって r の分布を推定する。これをコンピューターを用いた random sampling によって代替するのが bootstrap 法であると言っても良いだろう。

標本集団からさらに random sampling を行い、自分自身を再生することを 復元抽出 という。これによって得られるブートストラップ分布は、実際の標本分布とよく一致することが理論的に示されているらしい (3)。

Bootstrap という名前は、標本集団だけで行う自力のプロセスを意味するとともに、ミュンヒハウゼン男爵の古典にみられる「沼に落ちたときに、自分で自分の髪を掴んで引っ張り上げた」というホラ話も imply しているようである。これに関しては、文献 3 のサイトを参照頂きたい。


広告

コメント欄

一言コメントをどうぞ! (100 字まで)

フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。


References

  1. R とブートストラップ. Link.
  2. 日本統計学会創立 75 周年記念出版 21 世紀の統計科学. Pdf file.
  3. 鈴木督久 氏のウェブサイト. Link.