【統計:不偏分散】

数学

不偏分散とはなんだろうか。
文字通り、偏りのない分散である。母分散を推定する際には標準分散ではなく、不偏分散の方が使われる。

スポンサードサーチ

不偏分散の式

不偏分散$U^2$は以下のように表される

$$ U^2 = \frac{1}{(n-1)}\sum_{i=1}^n (X_i-\overline{X})^2$$

ちなみに標本分散$S^2$は、

$$ S^2 = \frac{1}{(n)}\sum_{i=1}^n (X_i-\overline{X})^2 $$

である。

ちなみに、$X_i$は確率変数を表し、$x_i$になると観測値を表す。
(確率変数、ここでは身長やサイコロの目の数などの値と思ってくれて良い)

二つの式において、確率変数$X_i$を使用しているのは、母集団からn個抽出し計測、また戻して、n個抽出し計測して戻す…という行為を繰り返すため、変数$X_i$を用いている。つまり、この行為は標本を取っているということである。そのため、$\overline{X}$は標本平均という。

また、$N$は母集団のデータ数で、$n$になると標本で抽出したデータ数を表している。
これらをもとに再度上記二つの式を見比べてみると、標本時における式だということが分かる。

違いは何か

不偏分散と標本分散の違いは、分母が$n-1$か$n$というだけだ。
たったそれだけの違いだが、統計においては標本分散はあまり使われず、$n-1$をした不偏分散がよく使われる。

それはなぜだろうか。

なぜ不偏分散を使うか

実は、標本分散には誤差があるということが不偏分散を使用する元になっている。

というわけでどんな誤差なのか、またどのように不偏分散を導出できるかを解説していくが、そこまで詳しく知りたくないという方はここでサイトを閉じてほしい。

標本分散の式をゴリゴリ変形していく

標本分散の式は、
$$ S^2 = \frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2 $$
であるが、括弧の中身である$X_i – \overline{X}$に対して、$X_i-\overline{X}=(X_i-\mu)-(\overline{X}-\mu)$を代入する。$\mu$を湧き出しているが、プラス・マイナス0なので等式は満たしている。
また、$\mu$は母集団の平均、すなわち母平均である。

これを代入して、展開すると、
$$ = \frac{1}{n}\sum(X_i-\mu)^2 – \frac{2}{n}\sum(X_i-\mu)(\overline{X}-\mu) + \frac{1}{n}\sum(\overline{X}-\mu)^2$$
となる。
ここで、2項目の$(\overline{X}-\mu)$は、$\sum_{i=0}^n$の変数iによらないため、$\sum_{i=0}^n$の外に出すことができる。
さらに、3項目も同様に$\sum$の変数によらないため、$\frac{1}{n}\sum = 1$として考えると、

$$ = \frac{1}{n}\sum(X_i-\mu)^2-\frac{2(\overline{X}-\mu)}{n}\sum(X_i-\mu) + (\overline{X}-\mu)^2$$
そして、さらに2項目のシグマの中は、
$\sum(X_i-\mu) = (X_1+X_2+\dots X_n-\mu-\mu \dots -\mu)$となるが、これは$n(\overline{X}-\mu)$と置き替えられる。
平均$\overline{X}$は、大小さまざまな数をn個分足して、ならした数が$\overline{X}$になるという事なので、$X_1+X_2+\dots+X_n= n\overline{X} $となる。
よって、

$$ = \frac{1}{n}\sum (X_i-\mu)^2 -\frac{2(\overline{X}-\mu)}{n}n(\overline{X}-\mu) + (\overline{X}-\mu)^2$$
となり、標本分散$S^2$は、

$$ S^2 = \frac{1}{n}\sum (X_i-\mu)^2 – (\overline{X}-\mu)^2$$

と変形できることになる。
$ \frac{1}{n}\sum(X_i-\mu)^2$は母分散の式である。$\mu$は母平均であるので、この式が母分散であることが分かる。

そして、$(\overline{X}-\mu)^2$は、標本平均と母平均とのずれを表している。すなわち、

$$ S^2(標本分散) = (母分散) – (標本平均-母平均)^2$$

というわけで、標本分散の式を式変形すると、標本平均と母平均のずれが出てくることが分かる。
つまり、このまま標本分散の式を使っては困るというわけだ。

標本分散の式から不偏分散を導出する

ここで、変形した標本分散の式において、母分散を$\sigma^2$とすると、

$$ S^2 = \sigma^2 – (\overline{X}-\mu)^2$$

となる。
ここで、$(\overline{X}-\mu)^2$を、$\{\frac{1}{n}(n\overline{X}-n\mu)\}^2$として、さらに$n\overline{X} = \sum X_i$と置き替えることができるので(さっきとは逆の性質を使う)、

$$S^2 = \sigma^2-\left\{\frac{1}{n}\sum_{i=0}^n (X_i-\mu)\right\}^2 $$
となり、$\frac{1}{n}$を外に出すと、
$$ = \sigma^2-\frac{1}{n}\left[\frac{1}{n}\sum_{i=1}^n (X_i-\mu)^2 \right]$$
となるが、$\left[\frac{1}{n}\sum_{i=1}^n (X_i-\mu)^2 \right]$は母分散$\sigma^2$であるため

$$S^2 = \sigma^2 -\frac{1}{n}\sigma^2$$

となる。

これを$\sigma^2$について解くと、
$$ \sigma^2 = \left\{ \frac{n}{n-1}\right\}S^2$$
となり、標本分散$S^2 = \frac{1}{n}\sum(X_i-\overline{X})^2$を代入すると、
$$ \sigma^2 = \left( \frac{n}{n-1}\right) \frac{1}{n}\sum(X_i-\overline{X})^2$$
よって、

$$ \sigma^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$$

となり、これは最初に説明した不偏分散$U^2$と一致することが分かるだろう。
というわけで、不偏分散と母分散が一致するため、標本分散は使われず、より正しい不偏分散が使われる。

本来は期待値である

また、今回は数式でゴリゴリ書いて説明したが、多くのサイトをみるとさらに期待値という概念が入ってくる。
今回はややこしくなるため書かず説明したが、統計における期待値というのは平均値のことだ。つまり、標本の大きさ$n$が大きくなればなるほど、その値に近づくよ、ということを表している。

例えば、標本分散$S^2$の期待値を表すときは、$E[S^2]$と書き、数式で書くと、

$$ E[S^2] = \frac{1}{n} \sum (X_i-\overline{X})^2$$

となり、$E$を外したものと変わらない。

この式が言いたいことは、『標本サイズnが大きいとき、標本分散はだいたい$\frac{1}{n}\sum(X_i-\overline{X})^2$になる』ということを表す。
が、式の中に期待値が入ると理解が難しくなるため、今回は省いたというわけだ。

スポンサードサーチ

まとめ

標本分散の式は使わず、不偏分散の式を使う。
これだけ覚えておけばOK!