2010-01-01から1年間の記事一覧

2010年声優言及数 作業メモ(3) はてなキーワードトレンドの不具合

統計情報を取得していると、何名かの方は「トレンド」にグラフが出てこないことが分かりました。「ささきのぞみ」のトレンド - はてなキーワードAPIを直接叩くと500が返ってくる。調べた結果、APIに渡すキーワードのエンコーディングをUTF-8からEUCに変える…

2010年声優言及数 作業メモ(2) Rにデータを渡す

前回はキーワード統計情報の取得の話だけなのでPerlを使っていますが、実際の解析はRでやります。 あとで再利用したいので、まず統計情報だけあらかじめダウンロードしておきます。 $ perl -MURI::Escape -nle '$k=uri_escape $_; print "wget -O $k.json \"…

2010年声優言及数 作業メモ(1) 言及数グラフデータを取得

今年もそろそろ準備したい。まずは声優名一覧の取得。去年まではWikipediaの声優一覧から全部とってくることをしてたけど、Wikipediaは「声優」のハードルが甘すぎて誰でも引っかかってきて少々困る。ということで、2chの「声優個人」板にスレッドが立ってれ…

メモ

ちょっと考えたのでメモ。 パーセンタイル 移動平均 信頼区間 bootstrap いいモデルがあればparametricでも パーセンタイル+95%信頼区間の下限を使えばキレイに(ヒューリスティックな補正を入れずに)行ける気がするんだよな。あんまり難しくしすぎてもな…

firefoxのショートカットキー

カスタマイズしたやつをメモしておく。 次のタブ gBrowser.mTabContainer.advanceSelectedTab(1, true); 前のタブ gBrowser.mTabContainer.advanceSelectedTab(-1, true); 他のタブを閉じる gBrowser.removeAllTabsBut(gBrowser.mCurrentTab);

TeraTermのプロセスをまとめて殺す

色々なターミナルソフトを使ってみましたが、やはりTeraTermが一番使い勝手がよいと思います。ただ唯一の欠点としては、窓を閉じるときに確認メッセージがいちいち出て鬱陶しいんですよね。そんなとき、taskkillコマンドを使って強制終了させると警告も出ず…

やっぱりそうか

某ゲーム - XXXannex efのアニメを見てて「あれっ」って思って、今度はカンパネラのアニメを見てて「あれっ」と思って・・・。調べてみたらやっぱり成瀬未亜さんでしたか。当時はエロゲー声優なんて全然知らないし抜きゲーだと思ってたから名前など全くチェ…

RTMP

今まで何となく使っていたけど、気持ち悪いので少し調べました。といっても詳細を理解する必要はないので必要部分のみ。 Real-Time Messaging Protocol (RTMP) specification | Adobe Developer Connection より抜粋: 4.1.1. connect The client sends the …

apply系関数でデータフレームを返したいときは plyr パッケージが便利

R

この話の続き。 「Rを使ってYahoo!乗換案内から運賃や所要時間,乗換回数を取得するコード書いた」をscrapeRで書いてみたよ - XXXannex 前のエントリーに追記してもよかったのですが、内容的に独立したエントリーに分けた方がよさそう。 listから変換 apply…

「Rを使ってYahoo!乗換案内から運賃や所要時間,乗換回数を取得するコード書いた」をscrapeRで書いてみたよ

R

こちらの話。 Rを使ってYahoo!乗換案内から運賃や所要時間,乗換回数を取得するコード書いた - Fire and Motion Rubyでもなく、Perlでもなく、Rでスクレイピングしようというコンセプトがすばらしいです。熱い。 あちらのサイトではスクレイピング部分が結構…

はてなブックマークが「Twitterへ投稿」チェックボックスのON -> OFF を Cookie に保存してくれない件

この話。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/widgets.js"; …

Cygwinのls -lで文字化けする話

以前、いきなりCygwinがUTF-8環境になって何だこりゃって思ったことがあったのですが、どうやらWindowsではなくcygwin1.dll 1.7以降の変更が原因らしいです。 合併のお知らせ|OKIソフトウェア そっちかーということで、LANG=ja_JP.SJIS の設定をcygterm.cfg…

Web::Scraperのscraperコマンドのサブコマンド

冗長なタイトルだなあ・・・。 d, y, s, q, c, c all というのがあるらしいです。いつも忘れるので。 sub run_loop { my($tree, $term) = @_; while (defined(my $in = $term->readline("scraper> "))) { if ($in eq 'd') { $Data::Dumper::Indent = 1; warn…

ひびちからじおの更新をチェックするですよー

最初はお手軽にwgetでヘッダー情報を取ってくるとか中身をdiffすればいいとか考えたんだけど、どうもそれだけでは不十分のようで、結局スクレイピングすることに。 use strict; use warnings; use Web::Scraper; use URI; use Win32; use utf8; binmode STDO…

animate.tvのscrape

今日だけじゃなくて明日のために。 process '//table[@class="playlist"]', 'content[]' => scraper{ process '//tr[1]', 'title' => 'TEXT', process '//tr[3]/td[1]', subtitle => 'TEXT', process '//tr[3]/td[@class="play_btn"]/a', 'play' => '@href',…

animate.tvのscrape (2)

use strict; use warnings; use WWW::Mechanize; use Web::Scraper; use XML::LibXML::Simple; #use Path::Class; use Encode; use utf8; binmode STDOUT, ":utf8"; my $uri = shift || die; print STDERR "get $uri ... \n"; my $info = scraper{ process '…

こういうことをしていいのか分からないのだけど・・・

イメージ的には、rlibの下に適当な.pmファイルをおいておけば、それぞれの.pm内部に書かれた正規表現にマッチしているモジュールを使うような。例えばanimate.tvとlantis-netで別々のクローラーを使いたいけど、メインのスクリプトをいじらずモジュールをフ…

結構いい所ついてると思うのですが

793 名前:声の出演:名無しさん[sage] 投稿日:2010/07/17(土) 00:45:06 id:Xz23dZuC0 未ブレイク組 所属事務所 青二:三上枝織 エース:合田彩 81:植竹香菜 アイム:巽悠衣子 アップフロント系:三澤紗千香・石原夏織 バオバブ:金元寿子 ホーリーピーク…

ファイル名の途中からのnumeric sort

とりあえずこんなかんじで。sortコマンドのポジション指定は1-originなんだって。 $ ls file*.txt | sort -k 1.5 -n file0.txt file1.txt file2.txt file3.txt file4.txt file5.txt file6.txt file7.txt file8.txt file9.txt file10.txt file11.txt file12.t…

なんとなくメモ

それほど高橋美佳子が好きってわけでもないんだけど、なんとなくさびしいね。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); …

Net::FTPでnlist

Net::FTP - FTP Client class - metacpan.org lsは配列でファイル一覧を返してくれるけど、nlstとかlistはNet::FTP::dataconnを返すらしい。OS依存のデータを返すから*1しょうがないのだろうけど。 use strict; use warnings; use Net::FTP; my ($ftp, $data…

2ch総レス数 VS mixiコミュニティ参加者数

R

この話。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/widgets.js"; …

CygwinでTime::Pieceのインストールに失敗したときは dosish.h.new -> dosish.h のリンクを作ってみる

Time::Pieceをインストールしようと思ったら、エラーでmakeが失敗してしまいました。 $ perl -MCPAN -e 'install Time::Piece' .. .. /usr/bin/perl.exe /usr/lib/perl5/5.10/ExtUtils/xsubpp -typemap /usr/lib/perl5/5.10/ExtUtils/typemap Piece.xs > Pie…

Perl で ctime -> epoch 変換

use strict; use warnings; use Time::Piece; my $time_str = shift; print c2e($time_str); sub c2e{ $time_str = shift; $time_str =~ m/^([a-z]+) +([a-z]+) +(\d+) (\d{2}:\d{2}:\d{2}) .*(\d{4})/i or die "invalid format"; return Time::Piece->strpt…

Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (3) 2chを使ったスクリーニング案

続き。 Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (1) 2chを使ったスクリーニング案 - XXXannex Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (2) 2chを使ったスクリーニング案 - XXXannex そんなこんなで(茅原実里的な)、2chの「声…

Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (2) 2chを使ったスクリーニング案

Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (1) 2chを使ったスクリーニング案 - XXXannex続き。bbemenuをWeb::Scraperでスクレイピングして、「声優個人」のスレタイ一覧を取ってきます。firstvalとか使っちゃうのは、ある種のR脳なのかもなー。P…

Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (1) 2chを使ったスクリーニング案

この話。 Wikipediaから声優名一覧を取ってくるPerlスクリプト - XXXannex Wikipediaから声優名一覧を取ってくるようにすると非常に楽ちんなのですが、Wikipediaは一度でも声の仕事をした方を「声優」とみなしてしまうポリシーのようなのでfalse positiveの…

S4を勉強する(1)

R

とりあえずブックマークからS4関連の記事をピックアップ。まずはこれを読むところからですな。 S4が分からないので、本を買ってきた - yasuhisa's blog データ解析言語Rによる統計的プログラミング: 第 3 回 再利用可能なオブジェクト指向プログラミング How…

Perlで継承したメソッドがoverrideされるかどうか的な

投げやりなタイトル(笑) package A; use strict; use warnings; sub new{ my $class = shift; $class = ref $class || $class; return bless({}, $class); } sub f1{ my $self = shift; f2(); $self->f2(); } sub f2{ print "package A\n"; } package A::S…

かどわきまいの

みりょくをさいはっけんしたちょくごについったーとか。えありーふぇありーのへれんはさいこうでした、といいたいがちょくせついえないじれんま。こういうときはどうやってほめればいいんだろうなあ。あにめかしないかなあ。しないだろうなあ。