2010-01-01から1年間の記事一覧
統計情報を取得していると、何名かの方は「トレンド」にグラフが出てこないことが分かりました。「ささきのぞみ」のトレンド - はてなキーワードAPIを直接叩くと500が返ってくる。調べた結果、APIに渡すキーワードのエンコーディングをUTF-8からEUCに変える…
前回はキーワード統計情報の取得の話だけなのでPerlを使っていますが、実際の解析はRでやります。 あとで再利用したいので、まず統計情報だけあらかじめダウンロードしておきます。 $ perl -MURI::Escape -nle '$k=uri_escape $_; print "wget -O $k.json \"…
今年もそろそろ準備したい。まずは声優名一覧の取得。去年まではWikipediaの声優一覧から全部とってくることをしてたけど、Wikipediaは「声優」のハードルが甘すぎて誰でも引っかかってきて少々困る。ということで、2chの「声優個人」板にスレッドが立ってれ…
ちょっと考えたのでメモ。 パーセンタイル 移動平均 信頼区間 bootstrap いいモデルがあればparametricでも パーセンタイル+95%信頼区間の下限を使えばキレイに(ヒューリスティックな補正を入れずに)行ける気がするんだよな。あんまり難しくしすぎてもな…
カスタマイズしたやつをメモしておく。 次のタブ gBrowser.mTabContainer.advanceSelectedTab(1, true); 前のタブ gBrowser.mTabContainer.advanceSelectedTab(-1, true); 他のタブを閉じる gBrowser.removeAllTabsBut(gBrowser.mCurrentTab);
色々なターミナルソフトを使ってみましたが、やはりTeraTermが一番使い勝手がよいと思います。ただ唯一の欠点としては、窓を閉じるときに確認メッセージがいちいち出て鬱陶しいんですよね。そんなとき、taskkillコマンドを使って強制終了させると警告も出ず…
某ゲーム - XXXannex efのアニメを見てて「あれっ」って思って、今度はカンパネラのアニメを見てて「あれっ」と思って・・・。調べてみたらやっぱり成瀬未亜さんでしたか。当時はエロゲー声優なんて全然知らないし抜きゲーだと思ってたから名前など全くチェ…
今まで何となく使っていたけど、気持ち悪いので少し調べました。といっても詳細を理解する必要はないので必要部分のみ。 Real-Time Messaging Protocol (RTMP) specification | Adobe Developer Connection より抜粋: 4.1.1. connect The client sends the …
この話の続き。 「Rを使ってYahoo!乗換案内から運賃や所要時間,乗換回数を取得するコード書いた」をscrapeRで書いてみたよ - XXXannex 前のエントリーに追記してもよかったのですが、内容的に独立したエントリーに分けた方がよさそう。 listから変換 apply…
こちらの話。 Rを使ってYahoo!乗換案内から運賃や所要時間,乗換回数を取得するコード書いた - Fire and Motion Rubyでもなく、Perlでもなく、Rでスクレイピングしようというコンセプトがすばらしいです。熱い。 あちらのサイトではスクレイピング部分が結構…
この話。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/widgets.js"; …
以前、いきなりCygwinがUTF-8環境になって何だこりゃって思ったことがあったのですが、どうやらWindowsではなくcygwin1.dll 1.7以降の変更が原因らしいです。 合併のお知らせ|OKIソフトウェア そっちかーということで、LANG=ja_JP.SJIS の設定をcygterm.cfg…
冗長なタイトルだなあ・・・。 d, y, s, q, c, c all というのがあるらしいです。いつも忘れるので。 sub run_loop { my($tree, $term) = @_; while (defined(my $in = $term->readline("scraper> "))) { if ($in eq 'd') { $Data::Dumper::Indent = 1; warn…
最初はお手軽にwgetでヘッダー情報を取ってくるとか中身をdiffすればいいとか考えたんだけど、どうもそれだけでは不十分のようで、結局スクレイピングすることに。 use strict; use warnings; use Web::Scraper; use URI; use Win32; use utf8; binmode STDO…
今日だけじゃなくて明日のために。 process '//table[@class="playlist"]', 'content[]' => scraper{ process '//tr[1]', 'title' => 'TEXT', process '//tr[3]/td[1]', subtitle => 'TEXT', process '//tr[3]/td[@class="play_btn"]/a', 'play' => '@href',…
use strict; use warnings; use WWW::Mechanize; use Web::Scraper; use XML::LibXML::Simple; #use Path::Class; use Encode; use utf8; binmode STDOUT, ":utf8"; my $uri = shift || die; print STDERR "get $uri ... \n"; my $info = scraper{ process '…
イメージ的には、rlibの下に適当な.pmファイルをおいておけば、それぞれの.pm内部に書かれた正規表現にマッチしているモジュールを使うような。例えばanimate.tvとlantis-netで別々のクローラーを使いたいけど、メインのスクリプトをいじらずモジュールをフ…
793 名前:声の出演:名無しさん[sage] 投稿日:2010/07/17(土) 00:45:06 id:Xz23dZuC0 未ブレイク組 所属事務所 青二:三上枝織 エース:合田彩 81:植竹香菜 アイム:巽悠衣子 アップフロント系:三澤紗千香・石原夏織 バオバブ:金元寿子 ホーリーピーク…
とりあえずこんなかんじで。sortコマンドのポジション指定は1-originなんだって。 $ ls file*.txt | sort -k 1.5 -n file0.txt file1.txt file2.txt file3.txt file4.txt file5.txt file6.txt file7.txt file8.txt file9.txt file10.txt file11.txt file12.t…
それほど高橋美佳子が好きってわけでもないんだけど、なんとなくさびしいね。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); …
Net::FTP - FTP Client class - metacpan.org lsは配列でファイル一覧を返してくれるけど、nlstとかlistはNet::FTP::dataconnを返すらしい。OS依存のデータを返すから*1しょうがないのだろうけど。 use strict; use warnings; use Net::FTP; my ($ftp, $data…
この話。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/widgets.js"; …
Time::Pieceをインストールしようと思ったら、エラーでmakeが失敗してしまいました。 $ perl -MCPAN -e 'install Time::Piece' .. .. /usr/bin/perl.exe /usr/lib/perl5/5.10/ExtUtils/xsubpp -typemap /usr/lib/perl5/5.10/ExtUtils/typemap Piece.xs > Pie…
use strict; use warnings; use Time::Piece; my $time_str = shift; print c2e($time_str); sub c2e{ $time_str = shift; $time_str =~ m/^([a-z]+) +([a-z]+) +(\d+) (\d{2}:\d{2}:\d{2}) .*(\d{4})/i or die "invalid format"; return Time::Piece->strpt…
続き。 Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (1) 2chを使ったスクリーニング案 - XXXannex Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (2) 2chを使ったスクリーニング案 - XXXannex そんなこんなで(茅原実里的な)、2chの「声…
Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (1) 2chを使ったスクリーニング案 - XXXannex続き。bbemenuをWeb::Scraperでスクレイピングして、「声優個人」のスレタイ一覧を取ってきます。firstvalとか使っちゃうのは、ある種のR脳なのかもなー。P…
この話。 Wikipediaから声優名一覧を取ってくるPerlスクリプト - XXXannex Wikipediaから声優名一覧を取ってくるようにすると非常に楽ちんなのですが、Wikipediaは一度でも声の仕事をした方を「声優」とみなしてしまうポリシーのようなのでfalse positiveの…
とりあえずブックマークからS4関連の記事をピックアップ。まずはこれを読むところからですな。 S4が分からないので、本を買ってきた - yasuhisa's blog データ解析言語Rによる統計的プログラミング: 第 3 回 再利用可能なオブジェクト指向プログラミング How…
投げやりなタイトル(笑) package A; use strict; use warnings; sub new{ my $class = shift; $class = ref $class || $class; return bless({}, $class); } sub f1{ my $self = shift; f2(); $self->f2(); } sub f2{ print "package A\n"; } package A::S…
みりょくをさいはっけんしたちょくごについったーとか。えありーふぇありーのへれんはさいこうでした、といいたいがちょくせついえないじれんま。こういうときはどうやってほめればいいんだろうなあ。あにめかしないかなあ。しないだろうなあ。