キーワード調査の前に

いつから調査を始めればいいんだろう?という毎回の疑問にRがお答えしましょう、という話。今回もhttp://www.moonphase.cc/Html/anime.html様からデータをいただいてきてExcelに貼り付けたはいいけど、これをどう調査するか・・・。Excelのまま扱ってもいいかもしれないけど、日付データを集計してグラフに出す作業が結構めんどそう。Excelに貼った後、日付の書いてある列だけ選択してコピーした後に次のコードを実行します。

plot.datestep <- function(d, v){ #d:date(x) v:value(y)
    mar.old <- mar.new <- par("mar")
    mar.new[1] = mar.new[1] + 1
    par(mar=mar.new)
    plot(d, v, type="s", col="#1e5692", ylab="", lwd=2, xaxt="n")
    axis.Date(1, at=seq(min(d), max(d), "2 days"), format="%m/%d", las=2)
    par(mar=mar.old)
}

l <- readLines("clipboard")
date <- strptime(l, "%m月%d日")
date <- date[!is.na(date)]
date2 <- table(as.Date(date))

plot.datestep(as.Date(unique(date)), date2)
plot.datestep(as.Date(unique(date)), cumsum(date2)/sum(date2))
> date2
2007-08-25 2007-09-13 2007-10-01 2007-10-02 2007-10-03 2007-10-04 
         1          2          5          7          2          4 
2007-10-06 2007-10-07 2007-10-09 2007-10-11 2007-10-13 
         7          8          1          2          1 

> cumsum(date2)/sum(date2)
2007-08-25 2007-09-13 2007-10-01 2007-10-02 2007-10-03 2007-10-04 
     0.025      0.075      0.200      0.375      0.425      0.525 
2007-10-06 2007-10-07 2007-10-09 2007-10-11 2007-10-13 
     0.700      0.900      0.925      0.975      1.000 
 > 


上のplot.datestep(左の図)が日付ごとの作品数、下のplot.datestep(右の図)が累積分布。こうしてみると、10/7で全体の9割に達していることが分かります。95%を目指すなら10/11までかかることになるけど・・・まあ、よほどの話題作でもなければ7日を締め切りにしておくのが妥当かな。
ちなみに、その4つとは、げんしけん2もやしもんこどものじかんしおんの王。微妙なところ。こどものじかんとかは、話題作といってもいいしなあ。もうちょい待つか?どうせまだ全然終わってないし(笑)

まてまて

グラフは重ねたほうがいいな。よし改造だ。