いつから調査を始めればいいんだろう?という毎回の疑問にRがお答えしましょう、という話。今回もhttp://www.moonphase.cc/Html/anime.html様からデータをいただいてきてExcelに貼り付けたはいいけど、これをどう調査するか・・・。Excelのまま扱ってもいいかもしれないけど、日付データを集計してグラフに出す作業が結構めんどそう。Excelに貼った後、日付の書いてある列だけ選択してコピーした後に次のコードを実行します。
plot.datestep <- function(d, v){ #d:date(x) v:value(y) mar.old <- mar.new <- par("mar") mar.new[1] = mar.new[1] + 1 par(mar=mar.new) plot(d, v, type="s", col="#1e5692", ylab="", lwd=2, xaxt="n") axis.Date(1, at=seq(min(d), max(d), "2 days"), format="%m/%d", las=2) par(mar=mar.old) } l <- readLines("clipboard") date <- strptime(l, "%m月%d日") date <- date[!is.na(date)] date2 <- table(as.Date(date)) plot.datestep(as.Date(unique(date)), date2) plot.datestep(as.Date(unique(date)), cumsum(date2)/sum(date2))
> date2 2007-08-25 2007-09-13 2007-10-01 2007-10-02 2007-10-03 2007-10-04 1 2 5 7 2 4 2007-10-06 2007-10-07 2007-10-09 2007-10-11 2007-10-13 7 8 1 2 1 > cumsum(date2)/sum(date2) 2007-08-25 2007-09-13 2007-10-01 2007-10-02 2007-10-03 2007-10-04 0.025 0.075 0.200 0.375 0.425 0.525 2007-10-06 2007-10-07 2007-10-09 2007-10-11 2007-10-13 0.700 0.900 0.925 0.975 1.000 >
上のplot.datestep(左の図)が日付ごとの作品数、下のplot.datestep(右の図)が累積分布。こうしてみると、10/7で全体の9割に達していることが分かります。95%を目指すなら10/11までかかることになるけど・・・まあ、よほどの話題作でもなければ7日を締め切りにしておくのが妥当かな。
ちなみに、その4つとは、げんしけん2・もやしもん・こどものじかん・しおんの王。微妙なところ。こどものじかんとかは、話題作といってもいいしなあ。もうちょい待つか?どうせまだ全然終わってないし(笑)
まてまて
グラフは重ねたほうがいいな。よし改造だ。