【統計:不偏分散】

数学

不偏分散とはなんだろうか。
文字通り、偏りのない分散である。母分散を推定する際には標準分散ではなく、不偏分散の方が使われる。

スポンサードサーチ

不偏分散の式

不偏分散U2は以下のように表される

U2=1(n1)i=1n(XiX)2

ちなみに標本分散S2は、

S2=1(n)i=1n(XiX)2

である。

ちなみに、Xiは確率変数を表し、xiになると観測値を表す。
(確率変数、ここでは身長やサイコロの目の数などの値と思ってくれて良い)

二つの式において、確率変数Xiを使用しているのは、母集団からn個抽出し計測、また戻して、n個抽出し計測して戻す…という行為を繰り返すため、変数Xiを用いている。つまり、この行為は標本を取っているということである。そのためXは標本平均という。

また、Nは母集団のデータ数で、nになると標本で抽出したデータ数を表している。
これらをもとに再度上記二つの式を見比べてみると、標本時における式だということが分かる。

違いは何か

不偏分散と標本分散の違いは、分母がn1nというだけだ。
たったそれだけの違いだが、統計においては標本分散はあまり使われず、n1をした不偏分散がよく使われる。

それはなぜだろうか。

なぜ不偏分散を使うか

実は、標本分散には誤差があるということが不偏分散を使用する元になっている。

というわけでどんな誤差なのか、またどのように不偏分散を導出できるかを解説していくが、そこまで詳しく知りたくないという方はここでサイトを閉じてほしい。

標本分散の式をゴリゴリ変形していく

標本分散の式は、
S2=1ni=1n(XiX)2
であるが、括弧の中身であるXiXに対して、XiX=(Xiμ)(Xμ)を代入する。μを湧き出しているが、プラス・マイナス0なので等式は満たしている。
また、μは母集団の平均、すなわち母平均である。

これを代入して、展開すると、
=1n(Xiμ)22n(Xiμ)(Xμ)+1n(Xμ)2
となる。
ここで、2項目の(Xμ)は、i=0nの変数iによらないため、i=0nの外に出すことができる。
さらに、3項目も同様にの変数によらないため、1n=1として考えると、

=1n(Xiμ)22(Xμ)n(Xiμ)+(Xμ)2
そして、さらに2項目のシグマの中は、
(Xiμ)=(X1+X2+Xnμμμ)となるが、これはn(Xμ)と置き替えられる。
平均Xは、大小さまざまな数をn個分足して、ならした数がXになるという事なので、X1+X2++Xn=nXとなる。
よって、

=1n(Xiμ)22(Xμ)nn(Xμ)+(Xμ)2
となり、標本分散S2は、

S2=1n(Xiμ)2(Xμ)2

と変形できることになる。
1n(Xiμ)2母分散の式である。μは母平均であるので、この式が母分散であることが分かる。

そして、(Xμ)2は、標本平均と母平均とのずれを表している。すなわち、

S2()=()()2

というわけで、標本分散の式を式変形すると、標本平均と母平均のずれが出てくることが分かる。
つまり、このまま標本分散の式を使っては困るというわけだ。

標本分散の式から不偏分散を導出する

ここで、変形した標本分散の式において、母分散をσ2とすると、

S2=σ2(Xμ)2

となる。
ここで、(Xμ)2を、{1n(nXnμ)}2として、さらにnX=Xiと置き替えることができるので(さっきとは逆の性質を使う)、

S2=σ2{1ni=0n(Xiμ)}2
となり、1nを外に出すと、
=σ21n[1ni=1n(Xiμ)2]
となるが、[1ni=1n(Xiμ)2]は母分散σ2であるため

S2=σ21nσ2

となる。

これをσ2について解くと、
σ2={nn1}S2
となり、標本分散S2=1n(XiX)2を代入すると、
σ2=(nn1)1n(XiX)2
よって、

σ2=1n1i=1n(XiX)2

となり、これは最初に説明した不偏分散U2と一致することが分かるだろう。
というわけで、不偏分散と母分散が一致するため、標本分散は使われず、より正しい不偏分散が使われる。

本来は期待値である

また、今回は数式でゴリゴリ書いて説明したが、多くのサイトをみるとさらに期待値という概念が入ってくる。
今回はややこしくなるため書かず説明したが、統計における期待値というのは平均値のことだ。つまり、標本の大きさnが大きくなればなるほど、その値に近づくよ、ということを表している。

例えば、標本分散S2の期待値を表すときは、E[S2]と書き、数式で書くと、

E[S2]=1n(XiX)2

となり、Eを外したものと変わらない。

この式が言いたいことは、『標本サイズnが大きいとき、標本分散はだいたい1n(XiX)2になる』ということを表す。
が、式の中に期待値が入ると理解が難しくなるため、今回は省いたというわけだ。

スポンサードサーチ

まとめ

標本分散の式は使わず、不偏分散の式を使う。
これだけ覚えておけばOK!