昨日の続き。
5 ┌┐ 4 ┌┤│ 3---------┏┳┬┤││ 2 ┌┬┬┨┃││││ 1 ┌┤││┃┃││││ └┴┴┴┻┻┴┴┴┘ 012345678 5 ┌┐ 4 ┌┬┬┤│ 3-----┌┬┳┫││││ 2 ┌┤│┃┃││││ 1 ┌┤││┃┃││││ └┴┴┴┻┻┴┴┴┘ 012345678
このようなタイのある分布では、中央値をどうするかというはなし。
1. 同じ階級における位置を求める
同じ階級における位置を求めれば、中央値が等しい場合でも差別化が図れる。例えば、同じ中央値3でも上の図では階級内の低い位置にあり、下の図では階級内の高い位置にある。従って、下の図のほうが真の中央値は大きな値になるはずである。
全体のサンプル数をとすると、中央値は下から数えて番目の数(0から始まるインデックスでは)となり、これをとする。またそのときの階級値を、度数を、階級値が初めて出てくるインデックスをとする。このとき、階級内での位置は
となる。は0〜1の値をとり、これを比較することで同じ中央値でも順位がつけられる。
2. 意味のある数値として計算
1.の値は、順序をつける場合には十分であるが、数値自体には意味がない。例えば3.9は、階級値3の中で下から90%の位置にいるというだけで、実際の値が3.9というわけではない。
階級の幅がであるとき、現在の値に対してで均等に分布すると仮定すると
で真の中央値が求められる。例えば上の図では、、中央値はとなる。
ちなみにこの方法は、サンプル数が偶数のときも同じ式で計算できる。
要するに式は違うが
http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/median.html
と同じことをやっているだけ。