中央値に関する検討

昨日の続き。

5                 ┌┐
4               ┌┤│
3---------┏┳┬┤││
2   ┌┬┬┨┃││││
1 ┌┤││┃┃││││
  └┴┴┴┻┻┴┴┴┘
   012345678


5                 ┌┐
4           ┌┬┬┤│
3-----┌┬┳┫││││
2   ┌┤│┃┃││││
1 ┌┤││┃┃││││
  └┴┴┴┻┻┴┴┴┘
   012345678

このようなタイのある分布では、中央値をどうするかというはなし。

1. 同じ階級における位置を求める

同じ階級における位置を求めれば、中央値が等しい場合でも差別化が図れる。例えば、同じ中央値3でも上の図では階級内の低い位置にあり、下の図では階級内の高い位置にある。従って、下の図のほうが真の中央値は大きな値になるはずである。

全体のサンプル数をNとすると、中央値は下から数えて \frac{N+1}{2}番目の数(0から始まるインデックスでは \frac{N-1}{2})となり、これをi_0とする。またそのときの階級値をs、度数をn、階級値が初めて出てくるインデックスをiとする。このとき、階級内での位置p

\frac{i-i_0 + 0.5}{n}

となる。pは0〜1の値をとり、これを比較することで同じ中央値でも順位がつけられる。

2. 意味のある数値として計算

1.の値は、順序をつける場合には十分であるが、数値自体には意味がない。例えば3.9は、階級値3の中で下から90%の位置にいるというだけで、実際の値が3.9というわけではない。

階級の幅がaであるとき、現在の値sに対して[s-\frac{a}{2}, s+\frac{a}{2}]で均等に分布すると仮定すると

s-\frac{a}{2} + ap

で真の中央値が求められる。例えば上の図では、p=\frac{\frac{9-1}{2}-4+0.5}{3}=\frac{1}{6}、中央値は(3-0.5) + 1*\frac{1}{6} =2.67となる。

ちなみにこの方法は、サンプル数が偶数のときも同じ式で計算できる。

要するに式は違うが
http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/median.html
と同じことをやっているだけ。