中央値に関する検討 - kkobayashi

昨日の続き。

5                 ┌┐
4               ┌┤│
3---------┏┳┬┤││
2   ┌┬┬┨┃││││
1 ┌┤││┃┃││││
  └┴┴┴┻┻┴┴┴┘
   ０１２３４５６７８


5                 ┌┐
4           ┌┬┬┤│
3-----┌┬┳┫││││
2   ┌┤│┃┃││││
1 ┌┤││┃┃││││
  └┴┴┴┻┻┴┴┴┘
   ０１２３４５６７８

このようなタイのある分布では、中央値をどうするかというはなし。

1. 同じ階級における位置を求める

同じ階級における位置を求めれば、中央値が等しい場合でも差別化が図れる。例えば、同じ中央値3でも上の図では階級内の低い位置にあり、下の図では階級内の高い位置にある。従って、下の図のほうが真の中央値は大きな値になるはずである。

全体のサンプル数を $N$ とすると、中央値は下から数えて $\frac{N+1}{2}$ 番目の数(0から始まるインデックスでは $\frac{N-1}{2}$ )となり、これを $i_0$ とする。またそのときの階級値を $s$ 、度数を $n$ 、階級値が初めて出てくるインデックスを $i$ とする。このとき、階級内での位置 $p$ は