2009年声優言及数 作業メモ 反省会(1)

今回は例年になく反応が大きかったので、色々と考えさせられることが多かった。改善案としていくつか考えたので、忘れないうちにまとめておく。

スコア計算を言及数ベースではなく順位ベースにする

そもそも、言及数をそのまま使っているからおかしなことになる。というか、線形回帰したあとの値は間隔尺度なわけで、それに対して「比」を取っているのがおかしい。・・・という突っ込みを誰もしてくれなかったのは残念だが。自分で気づいたからいいけど。
そういうわけで、今の調査方法はよくない。じゃあどうするかというと、言及数を順位にする。1000人いた場合は、1位を1000として、1000位を1とする。tie breakは下にあわせる。で、それをスコアにする。そうすれば、「順位をいくつ上げたか = 直線の傾き」がそのままつかえる。
ただこれも問題があって、100位が91位になるのと10位が1位になるのが同じ意味を持ってしまう。

・・・ま、とりあえずやってみる?

l <- apply(l, 2, rank, tie="min")
d <- stat.sy(l, pickup)

お手軽だなあ。さすがR。

> head(d[sort.list(d$sum,dec=T),],20)
             sum             a        b       key
ありす     12960 -4.078160e-14 1080.000 1.0000000
水樹奈々   12941 -4.545455e-02 1079.258 0.9996264
久住小春   12924  6.293706e-02 1075.836 1.0005181
平野綾     12924 -5.594406e-02 1078.035 0.9995397
堀江由衣   12895  7.342657e-02 1073.225 1.0006056
田村ゆかり 12875  3.846154e-02 1072.205 1.0003176
中川翔子   12856 -6.433566e-01 1083.235 0.9946967
千秋       12847 -4.440559e-01 1078.798 0.9963345
くじら     12845  1.223776e-01 1068.153 1.0010127
戸松遥     12839  1.993007e-01 1066.230 1.0016504
坂本真綾   12833 -2.972028e-01 1074.915 0.9975431
釘宮理恵   12806 -1.272727e+00 1090.712 0.9895031
ゆかな     12769 -5.944056e-02 1065.183 0.9995061
能登麻美子 12746 -2.097902e-02 1062.555 0.9998254
豊崎愛生   12737  3.926573e+00  988.775 1.0332406
中島愛     12713 -6.468531e-01 1071.383 0.9946199
新谷良子   12702 -7.902098e-01 1073.119 0.9934269
のみこ     12689  6.468531e-01 1045.450 1.0054174
沢城みゆき 12661 -1.153846e-01 1057.218 0.9990350
仲間由紀恵 12654 -1.468531e-01 1057.217 0.9987715

おっ。いい感じじゃないですか。

> head(d[sort.list(d$a,dec=T),],20)
              sum         a          b         key
堀中優希     5093 111.63986 -1640.9207   18.553051
富樫美鈴     5072 110.64336 -1624.2354   17.515658
本多真梨子   5532 109.25175 -1560.1573   11.041564
内田彩       6478 109.10490 -1478.6072    7.021226
儀武ゆう子   7451 105.77972 -1336.0082    4.895570
原田ひとみ   6942 105.70629 -1377.0664    5.530043
合田彩       3539 100.63287 -1566.7914 1107.961538
清水彩香     5022  99.16783 -1416.1049    9.224048
五行なずな   3419  94.77972 -1468.5082   45.953566
有栖川みや美 3471  88.31818 -1344.6364   16.404960
工藤あかり   5159  87.99650 -1198.0186    5.710275
牧口真幸     4984  86.26573 -1180.5828    5.734297
倉田まりや   3097  85.75874 -1328.4534   21.518963
山岡ゆり     4039  83.84965 -1214.6352    7.833492
遠野そよぎ   2779  81.43007 -1274.8730   21.695201
五十嵐裕美   3939  81.35315 -1176.7832    7.375103
大橋歩夕     7221  79.45105  -868.0944    3.059611
児玉明日美   3662  74.65734 -1075.9942    6.328675
一龍斎貞友   4553  73.45804  -979.5571    4.439024
福原遥       9962  72.88112  -518.1340    2.163754

うぐぅ〜。だめだこりゃ。これじゃ「ブレイクしかけ」だな。

順位の経緯は・・・

> nrow(l)-l[rownames(l)=="豊崎愛生",]
Jan 2009 Feb 2009 Mar 2009 Apr 2009 May 2009 Jun 2009 Jul 2009 Aug 2009 Sep 2009 Oct 2009 Nov 2009 Dec 2009 
      51       40       59        6       10        6        8       12       12        6        6        7 
> 

これが拾えないのは致命的かもなー。要再考。

> nrow(l)-l[rownames(l)=="堀中優希",]
Jan 2009 Feb 2009 Mar 2009 Apr 2009 May 2009 Jun 2009 Jul 2009 Aug 2009 Sep 2009 Oct 2009 Nov 2009 Dec 2009 
    1079     1079     1079     1079     1079     1079      227      457      267      150      140      152 

・・・。ま、そりゃそーだわな。

  • ブレイクした = 50位以内
  • ブレイクしかけ = 50 〜 100位

みたいな基準を設けるべきか?

> d2 <- d[(l[,12] > nrow(l)-50),]
> head(d2[sort.list(d2$a,dec=T),],20)
               sum          a         b      key
福原遥        9962 72.8811189 -518.1340 2.163754
寧々         11621 18.2132867  631.4709 1.177642
日笠陽子     11960 15.6223776  707.6527 1.146838
早見沙織     11902 15.5594406  703.9837 1.146810
丹下桜       11880 14.3356643  724.7902 1.134697
伊藤かな恵   12294  8.7622378  862.3986 1.077989
今井麻美     12377  8.0944056  881.6702 1.071433
佐藤聡美     12183  5.5629371  912.3357 1.049181
寿美菜子     12365  3.9895105  956.6107 1.034608
豊崎愛生     12737  3.9265734  988.7751 1.033241
花澤香菜     12489  3.5279720  975.4825 1.030297
たかはし智秋 12143  2.5839161  964.1142 1.022607
高垣彩陽     12551  2.1923077 1005.3590 1.018645
加藤英美里   12379  1.9825175  994.9068 1.017034
AKIKO        12286  1.4195804  997.5711 1.012242
小清水亜美   12648  0.6993007 1041.0629 1.005873
のみこ       12689  0.6468531 1045.4499 1.005417
黒柳徹子     12406  0.5314685 1024.0012 1.004530
MAI          12474  0.4685315 1030.8322 1.003975
戸松遥       12839  0.1993007 1066.2296 1.001650

んー、それでもダメか。やっぱ順位でやるってのはキツイかなあ。

> head(d[sort.list(d$key,dec=T),],20)
              sum         a          b         key
合田彩       3539 100.63287 -1566.7914 1107.961538
五行なずな   3419  94.77972 -1468.5082   45.953566
遠野そよぎ   2779  81.43007 -1274.8730   21.695201
倉田まりや   3097  85.75874 -1328.4534   21.518963
堀中優希     5093 111.63986 -1640.9207   18.553051
富樫美鈴     5072 110.64336 -1624.2354   17.515658
有栖川みや美 3471  88.31818 -1344.6364   16.404960
本多真梨子   5532 109.25175 -1560.1573   11.041564
平田真菜     2288  66.15385 -1033.1795    9.423865
金松由花     2306  66.24476 -1033.3613    9.338908
清水彩香     5022  99.16783 -1416.1049    9.224048
金元寿子     1928  61.42657  -975.7249    9.201681
山岡ゆり     4039  83.84965 -1214.6352    7.833492
五十嵐裕美   3939  81.35315 -1176.7832    7.375103
内田彩       6478 109.10490 -1478.6072    7.021226
藤田麻美     2225  59.70979  -919.2145    6.634114
加瀬愛奈     1462  51.02098  -822.0548    6.568757
青井美海     2000  56.36364  -876.0606    6.334216
児玉明日美   3662  74.65734 -1075.9942    6.328675
牧口真幸     4984  86.26573 -1180.5828    5.734297

おまけ。カオスw

6ヶ月spanで見る

たとえば2009年1月〜6月、2月〜7月・・・のように、6ヶ月spanで見ていく。そういう、ある程度短い期間で区切ることで、花澤香菜みたいにV字になってるところを解消できるかも。
これはすぐに試すわけにはいかなそうなので、pendingで。