5 ┌┐ 4 ┌┤│ 3---------┏┳┬┤││ 2 ┌┬┬┨┃││││ 1 ┌┤││┃┃││││ └┴┴┴┻┻┴┴┴┘ 012345678 5 ┌┐ 4 ┌┬┬┤│ 3-----┌┬┳┫││││ 2 ┌┤│┃┃││││ 1 ┌┤││┃┃││││ └┴┴┴┻┻┴┴┴┘ 012345678
タイのある場合の中央値の話ね。上の図で言えば、中央値は両方3だけど意味違うよね?その辺をどうにか反映できないか、というお話。
あと別口ネタとして、一致度の話。統計学的妥当性を意識して平均にしてたけど、実際近いかどうかって「感想を書いてるかどうか」も大きな要素かも。そう考えると「見てない」は欠測値ではなく定性評価ってことになる。「見てない」というのは「見てる」の最大の差=4より大きくなるだろうと考えて、平均値3-5=-2ってところでどうでしょ。その辺から始めてみて、パラメーター変えてみて適当なところで出してみる。レアサイト同士を炙り出すのが狙いなのですが、うまく行くかな?
続きは明日にでも。