今回は例年になく反応が大きかったので、色々と考えさせられることが多かった。改善案としていくつか考えたので、忘れないうちにまとめておく。
スコア計算を言及数ベースではなく順位ベースにする
そもそも、言及数をそのまま使っているからおかしなことになる。というか、線形回帰したあとの値は間隔尺度なわけで、それに対して「比」を取っているのがおかしい。・・・という突っ込みを誰もしてくれなかったのは残念だが。自分で気づいたからいいけど。
そういうわけで、今の調査方法はよくない。じゃあどうするかというと、言及数を順位にする。1000人いた場合は、1位を1000として、1000位を1とする。tie breakは下にあわせる。で、それをスコアにする。そうすれば、「順位をいくつ上げたか = 直線の傾き」がそのままつかえる。
ただこれも問題があって、100位が91位になるのと10位が1位になるのが同じ意味を持ってしまう。
・・・ま、とりあえずやってみる?
l <- apply(l, 2, rank, tie="min") d <- stat.sy(l, pickup)
お手軽だなあ。さすがR。
> head(d[sort.list(d$sum,dec=T),],20) sum a b key ありす 12960 -4.078160e-14 1080.000 1.0000000 水樹奈々 12941 -4.545455e-02 1079.258 0.9996264 久住小春 12924 6.293706e-02 1075.836 1.0005181 平野綾 12924 -5.594406e-02 1078.035 0.9995397 堀江由衣 12895 7.342657e-02 1073.225 1.0006056 田村ゆかり 12875 3.846154e-02 1072.205 1.0003176 中川翔子 12856 -6.433566e-01 1083.235 0.9946967 千秋 12847 -4.440559e-01 1078.798 0.9963345 くじら 12845 1.223776e-01 1068.153 1.0010127 戸松遥 12839 1.993007e-01 1066.230 1.0016504 坂本真綾 12833 -2.972028e-01 1074.915 0.9975431 釘宮理恵 12806 -1.272727e+00 1090.712 0.9895031 ゆかな 12769 -5.944056e-02 1065.183 0.9995061 能登麻美子 12746 -2.097902e-02 1062.555 0.9998254 豊崎愛生 12737 3.926573e+00 988.775 1.0332406 中島愛 12713 -6.468531e-01 1071.383 0.9946199 新谷良子 12702 -7.902098e-01 1073.119 0.9934269 のみこ 12689 6.468531e-01 1045.450 1.0054174 沢城みゆき 12661 -1.153846e-01 1057.218 0.9990350 仲間由紀恵 12654 -1.468531e-01 1057.217 0.9987715
おっ。いい感じじゃないですか。
> head(d[sort.list(d$a,dec=T),],20) sum a b key 堀中優希 5093 111.63986 -1640.9207 18.553051 富樫美鈴 5072 110.64336 -1624.2354 17.515658 本多真梨子 5532 109.25175 -1560.1573 11.041564 内田彩 6478 109.10490 -1478.6072 7.021226 儀武ゆう子 7451 105.77972 -1336.0082 4.895570 原田ひとみ 6942 105.70629 -1377.0664 5.530043 合田彩 3539 100.63287 -1566.7914 1107.961538 清水彩香 5022 99.16783 -1416.1049 9.224048 五行なずな 3419 94.77972 -1468.5082 45.953566 有栖川みや美 3471 88.31818 -1344.6364 16.404960 工藤あかり 5159 87.99650 -1198.0186 5.710275 牧口真幸 4984 86.26573 -1180.5828 5.734297 倉田まりや 3097 85.75874 -1328.4534 21.518963 山岡ゆり 4039 83.84965 -1214.6352 7.833492 遠野そよぎ 2779 81.43007 -1274.8730 21.695201 五十嵐裕美 3939 81.35315 -1176.7832 7.375103 大橋歩夕 7221 79.45105 -868.0944 3.059611 児玉明日美 3662 74.65734 -1075.9942 6.328675 一龍斎貞友 4553 73.45804 -979.5571 4.439024 福原遥 9962 72.88112 -518.1340 2.163754
うぐぅ〜。だめだこりゃ。これじゃ「ブレイクしかけ」だな。
順位の経緯は・・・
> nrow(l)-l[rownames(l)=="豊崎愛生",] Jan 2009 Feb 2009 Mar 2009 Apr 2009 May 2009 Jun 2009 Jul 2009 Aug 2009 Sep 2009 Oct 2009 Nov 2009 Dec 2009 51 40 59 6 10 6 8 12 12 6 6 7 >
これが拾えないのは致命的かもなー。要再考。
> nrow(l)-l[rownames(l)=="堀中優希",] Jan 2009 Feb 2009 Mar 2009 Apr 2009 May 2009 Jun 2009 Jul 2009 Aug 2009 Sep 2009 Oct 2009 Nov 2009 Dec 2009 1079 1079 1079 1079 1079 1079 227 457 267 150 140 152
・・・。ま、そりゃそーだわな。
- ブレイクした = 50位以内
- ブレイクしかけ = 50 〜 100位
みたいな基準を設けるべきか?
> d2 <- d[(l[,12] > nrow(l)-50),] > head(d2[sort.list(d2$a,dec=T),],20) sum a b key 福原遥 9962 72.8811189 -518.1340 2.163754 寧々 11621 18.2132867 631.4709 1.177642 日笠陽子 11960 15.6223776 707.6527 1.146838 早見沙織 11902 15.5594406 703.9837 1.146810 丹下桜 11880 14.3356643 724.7902 1.134697 伊藤かな恵 12294 8.7622378 862.3986 1.077989 今井麻美 12377 8.0944056 881.6702 1.071433 佐藤聡美 12183 5.5629371 912.3357 1.049181 寿美菜子 12365 3.9895105 956.6107 1.034608 豊崎愛生 12737 3.9265734 988.7751 1.033241 花澤香菜 12489 3.5279720 975.4825 1.030297 たかはし智秋 12143 2.5839161 964.1142 1.022607 高垣彩陽 12551 2.1923077 1005.3590 1.018645 加藤英美里 12379 1.9825175 994.9068 1.017034 AKIKO 12286 1.4195804 997.5711 1.012242 小清水亜美 12648 0.6993007 1041.0629 1.005873 のみこ 12689 0.6468531 1045.4499 1.005417 黒柳徹子 12406 0.5314685 1024.0012 1.004530 MAI 12474 0.4685315 1030.8322 1.003975 戸松遥 12839 0.1993007 1066.2296 1.001650
んー、それでもダメか。やっぱ順位でやるってのはキツイかなあ。
> head(d[sort.list(d$key,dec=T),],20) sum a b key 合田彩 3539 100.63287 -1566.7914 1107.961538 五行なずな 3419 94.77972 -1468.5082 45.953566 遠野そよぎ 2779 81.43007 -1274.8730 21.695201 倉田まりや 3097 85.75874 -1328.4534 21.518963 堀中優希 5093 111.63986 -1640.9207 18.553051 富樫美鈴 5072 110.64336 -1624.2354 17.515658 有栖川みや美 3471 88.31818 -1344.6364 16.404960 本多真梨子 5532 109.25175 -1560.1573 11.041564 平田真菜 2288 66.15385 -1033.1795 9.423865 金松由花 2306 66.24476 -1033.3613 9.338908 清水彩香 5022 99.16783 -1416.1049 9.224048 金元寿子 1928 61.42657 -975.7249 9.201681 山岡ゆり 4039 83.84965 -1214.6352 7.833492 五十嵐裕美 3939 81.35315 -1176.7832 7.375103 内田彩 6478 109.10490 -1478.6072 7.021226 藤田麻美 2225 59.70979 -919.2145 6.634114 加瀬愛奈 1462 51.02098 -822.0548 6.568757 青井美海 2000 56.36364 -876.0606 6.334216 児玉明日美 3662 74.65734 -1075.9942 6.328675 牧口真幸 4984 86.26573 -1180.5828 5.734297
おまけ。カオスw
6ヶ月spanで見る
たとえば2009年1月〜6月、2月〜7月・・・のように、6ヶ月spanで見ていく。そういう、ある程度短い期間で区切ることで、花澤香菜みたいにV字になってるところを解消できるかも。
これはすぐに試すわけにはいかなそうなので、pendingで。