Wikipediaに怒られない方法でWikipediaの女性声優リストを作成する

以前は女性声優名のリストを作成するためにWikipediaのデータをスクレイピングする方法を取っていましたが、Wikipedia的にはクローラの使用は歓迎されていないようです。

記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。

ウィキペディアのデータベースから自動的にデータの収集がなされた場合、システム管理者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。またウィキメディア財団が法的措置を検討することもあります。

Wikipedia:データベースダウンロード - Wikipedia

「記事を大量にダウンロードするため」ではないからイイじゃないか、という主張もできるかもしれませんが、なるべく怒られない方法としてWikipediaが公式に公開しているダンプデータを使ってみます。

http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-categorylinks.sql.gz

・・・が、これがまたでかい。解凍すると600MBを超え、いつまでたってもインポートが終わらん。仕方ないのでSQLを無視して加工することにしましょう。

$ perl -pnle "s/\),\(/\n/g; s/,/\t/g; s/'//g;" jawiki-latest-categorylinks.sql | grep "日本の女性声優" | perl -F"\t" -anle '$F[2]=~s/ \(.+//; $F[2]=~s/.*\\n//; print $F[2]' > seiyu.list

こんな感じで。gunzip -c からパイプでつなげば解凍しなくてもすむな。wgetからつなぐのは・・・さすがにやりすぎか。