ブートストラップとは
UB3/statistics/basics/monte_carlo_bootstrap
このページの最終更新日: 2024/09/30- 概要: ブートストラップとは
広告
概要: ブートストラップとは
オンラインの統計書 21 世紀の統計科学 による定義は以下の通り (2)。
|
その他の文献にみられる説明:
- 1 つの標本から
復元抽出 を繰り返して大量の標本を作製し、それらの標本を解析することで、母集団の性質などを分析する方法である (1)。
ランダムな試行を繰り返し、目的の値を近似的に求める方法を
広告
名前の由来と bootstrap 法の基本的アイディア
なお、bootstrap はブーツの上端につけられたつまみ革のことで、ブーツを履くときにこの部分をもって引っ張り上げる。転じて、「自力で〜する」「自力の、独力の」という意味を持つようになった英語である。
さらに、コンピューターの電源をつけたときに OS をロードする処理は、人間の手を借りずに自力で行われることから、このプロセスもブートストラップと呼ばれる。「ブート」という表現もある。
文献 3 に、名前の由来を含めた bootstrap 法のわかりやすい解説がある。これを参考に bootstrap 法の手順を説明する。
生物学実験における統計 - 統計を使う上で意識すべきこと のページにあるように、多くの研究では、
たとえば、グリーンアノールというトカゲを脅かしたときの音の大きさ A と、逃亡速度 B の間の ピアソンの相関 係数 r を求める研究を行うとする。
しかし、世界中のグリーンアノールを脅かして、逃亡速度を測定することは事実上不可能であるため、50 匹などのグリーンアノール (標本集団) に対して実験を行うわけである。しかし、得られた結果は全てのグリーンアノール (母集団) において通用することを想定しているため、実験データから母集団の性質を推定するという作業を行うことになる。
50 匹の実験データから、一つの相関係数 r が得られるわけであるが、これだけではこの r がどの程度確からしいのか判断することができない。ブートストラップ法では、得られた 50 個体分のデータに対して、以下の作業を行う (3)。
- N = 50 の標本から、1 個を無作為抽出して値を記録する。
- これを 50 回繰り返すと、新しい N = 50 の標本集団ができる。これについて r を算出する (2 個目の r)。
- この手続きを繰り返すことで、
実際は 1 個の標本集団しかないのに、複数の r を得ることができる 。したがって、r の分布を描くことができる! - 得られた r の分布から、区間推定を行うことが可能である。
- なお、仮説検定からの一連のページに示したように、従来の統計学では、理論によって r の分布を推定する。これをコンピューターを用いた random sampling によって代替するのが bootstrap 法であると言っても良いだろう。
標本集団からさらに random sampling を行い、自分自身を再生することを
Bootstrap という名前は、標本集団だけで行う自力のプロセスを意味するとともに、ミュンヒハウゼン男爵の古典にみられる「沼に落ちたときに、自分で自分の髪を掴んで引っ張り上げた」というホラ話も imply しているようである。これに関しては、文献 3 のサイトを参照頂きたい。
広告
References
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。