ようやくデータの整形ができたので、いよいよRで解析しますよ。
file <- "readpng2r.out" df <- read.table(file) rownames(df) <- df[,1] df <- df[,-1] v <- apply(df, 1, sum) names(v) <- sapply(names(v), hexDecode.e2s)
readpng2r.outは、1列目が名前、2〜13列目が月ごとの言及数を集計した数値になっているデータ。見にくいがこんな感じ
%A4%A2%A4%AA%A4%AD%A4%B5%A4%E4%A4%AB 0 4.92311475409837 105.866885245902 51.2229508196721 67.4443169398907 10.3427322404372 35.3038797814205 45.2230054644805 246.126885245902 62.6621857923496 61.1838797814208 42.6483060109292 1.00185792349725 %A4%A2%A4%AD%A4%E4%A4%DE%A4%EB%A4%CA 0 0 0 0 0 0 1.99 0 0 0 0 0 0
hexDecode.e2sは RでURIアンエスケープ - XXXannex で書いたやつ。
まずざっくりと傾向を見てみる。
plot(sort(v, dec=TRUE)
どうやら上からTOP20ほどがずば抜けていて、大体2000以上が大物、4000以上は超大物みたいな傾向がつかめるようです。
うーん
やっぱり、どれをみても7月分の集計結果がおかしい。7月、はてなに何があったんだ!?省くか・・・。