キーワード言及数の統計について・・・

まず2007年2q開始アニメについて、前の調査で拾い切れなかったアニメ(電脳コイルとかね)を全て網羅した結果と、3ヵ月後(6月最終週だ)に同じ集計をした結果について調査しました。↓で公開。
http://sheet.zoho.com/public.do?docurl=a%2Fga3qvYNJ7%2BuVm31GQvyw%3D%3D&name=joIhttsX89xdWlUs9ES03w%3D%3D
zoho sheetはspreadsheetのままで公開できるしエクスポートもできるしちょう便利。重いのが玉にキズなので、直接編集はしないほうがよいかも。
セルをクリップボードにコピーして適当な名前(after3m.dataとか)で保存。保存したらデータフレームとして読み込む。

> df <- read.table("after3m.data", header=TRUE, sep="\t")[c(2,4,8)]
> df
                    abb total_begin total_3m
1            らき☆すた        1304      915
2          グレンラガン         585      362
3      アイドルマスター         426      305
4        ハヤテのごとく         682      300
5            電脳コイル         334      265
6        なのはStrikerS         514      236
7              ぼくらの         263      168
..

で。初回から1週間と3ヵ月後でなにか比較できないかと思って色々考えつつRをいじってて、こういうことして遊ぶのにRは最適だよなあ、Excelではこうはいかんとか思いつついじっていたわけですが、そんな中で偏差値とか取ってみたらどうかと思いついたんだけど、そもそも正規分布なのかこれ?というお話。
Rにはもちろん正規分布を検定する関数も用意されているけど、まずはざっくりと視覚的に見てみたい。ので、グラフを描いてみることにしました。今回取得したデータの分布と、正規分布との比較が2行でできてしまうのはRのすごさですね。

plot(density(df$total_3m), xlim=c(0,1000), main="density of referred keyword - 2007/2q")
lines(seq(-100,1000), dnorm(seq(-100,1000), mean(df$total_3m), sd(df$total_3m)), col=2)

こんな感じ。黒線がデータの分布、赤線が正規分布。見ての通り全然ですね。β分布とかの方が近似できるかも?こういう右に歪んだ分布ってどう当てはめるんだろ。うーん。
まあ、なんにしても偏差値とか正規分布を仮定した統計量には全く意味が無いということは分かるかと思います。

ところで、グラフ画像はPDFが一番きれいに出るみたい。ベクターデータだからか?ただPDFではblogに貼ったりしづらいので、ImageMagickのconvertで変換します。

> pdf(file="density.pdf")
...
> dev.off()

とやっておいて

$ convert -resize 400 -depth 8 density.pdf density.png

これできれいなグラフ画像が!