【大数の法則・中心極限定理】
ここでは統計として面白い大数の法則(たいすうのほうそく)と中心極限定理について説明する。
名前は難しそうだが、一言で言ってしまえば以下のようになる。
- 大数の法則:
標本の話で、標本サイズが十分大きい時、$\mu$に近づく - 中心極限定理:
標本の話で、標本サイズが十分大きい時、正規分布$(\mu,\frac{\sigma^2}{n})$に近づく
スポンサードサーチ
なぜ説明したいのか
統計では、正規分布が前提で推定を行っていることが多い。
正規分布とは、富士山型のグラフで、山頂のところに平均$\mu$に来て、山頂$\mu$から両脇に$\frac{\sigma}{\sqrt{n}}$だけ離れたところから地面に向かってグラフが伸びた形になっている。
>>参考:正規分布における、中心に来る$\mu$と変曲点$\sigma$
だが、そもそも扱っている母集団や標本が、正規分布に従っているかどうかは分からないはずだ。
ところが、中心極限定理では、標本の数(サンプルサイズ)が十分大きいとき、その標本の分布は正規分布に従うというおもしろい性質がある。
不思議なことに、もとの母集団が正規分布に従っていなくても、サンプルを取ってきた標本では(サンプルサイズが十分大きければ)正規分布に従うというものである。この定理をもとに、正規分布であることを見越していろんな推定ができるわけだ。
というわけで早速見ていこう。
大数の法則
中心極限定理から行きたいところだが、まずは大数の定理から。
まず、母集団の母平均・母分散が、$(\mu,\sigma^2)$であるとする。
そして、母集団から標本を取るわけだが、このときサンプルサイズが十分大きいとき(20~ぐらいがいいとか)、標本平均は$\mu$になっていくというものである。
と、これだけ言っても分からないと思うので補足する。
例えば日本の成人男性の身長の平均を調べたいとする(この場合、母集団は日本の成人男性の身長で、その母平均を調べたいという事を意味している)。
そして、日本の成人男性ひとりを『エイヤッ!』と選び、その身長が172㎝だったとする(標本として、一人取った状態。サンプルサイズは1)。
このとき、その172㎝だけをみて、『172㎝が日本の成人男性の平均身長である』と報告できるだろうか?という話である。
おそらく、多くの人は、『一人だけでなく、数十人、数百人の成人男性を選んでその平均を取った方が良い』と考えるのではないだろうか?つまり、標本のサンプルサイズを大きくするということである。
というわけで、サンプルサイズが十分大きい時、標本平均は母平均$\mu$に近づいていきますよ、というのが大数の法則である。
とまぁ、大数の法則はこの辺りを押さえていればいいのではないかと思う。
中心極限定理
さて、やっと中心極限定理の話に行く。
これは、母集団が正規分布に従っていなくとも、その標本のサンプルサイズが十分大きければ、$(\mu, \frac{\sigma^2}{n})$の正規分布に近づくというものである。
大事なところは、母集団が正規分布でなくとも、標本においては正規分布になるということである。
正規分布に従うと便利なことがある。
例えば検定において、カイ二乗検定やt検定があるが、それぞれカイ二乗分布やt分布が使われる。
いずれの分布を使用するには、正規分布に従うことが条件になっている。ここでは検定の意味や種類が分からなくとも良く、『標本の分布が正規分布になっていれば、便利なことができる』ぐらいに思っていてほしい。
まとめ
- 大数の法則:
標本の話で、標本サイズが十分大きい時、$\mu$に近づく - 中心極限定理:
標本の話で、標本サイズが十分大きい時、正規分布$(\mu,\frac{\sigma^2}{n})$に近づく