2007/02/20

[技術系]   今でもスクレイピングできるんじゃないの?

at 23:26JST
オリコン、API公開しアマゾンと連携--Web 2.0化の波に追随 - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20343533,00.htm

というのを読んで、そう思った。ので調べてみた。なお、
「ランキング情報には著作権があるので勝手に利用できない」
という点は、ここではおいておく。

手順としては、
1・オリコンのサイトからシングルランキングデータを取得
2・各シングルデータから該当商品のASINを算出
3・一覧として出力
というふうになるわけだけど。

問題は、現状の

シングル週間ランキング -ORICON STYLE ランキング
http://www.oricon.co.jp/rank/js/w/

にはASINが載っていないので(あたりまえ)2の作業が必要になるという点だ。

しかし、たとえばオリコンでも大量の楽曲を扱っている手前なんらかのデータベース化は必要なわけで。それにJANデータなんかを使っていると、

1'・JANデータからASINを検索

できる。ちなみにアマゾンは商品ジャンルさえ限定すればJAN(EAN)での検索に対応しているので比較的容易だ。

が、たとえば

空が泣くから
ENDLICHERI☆ENDLICHERI
http://www.oricon.co.jp/music/release/d/695091/1/

のURLを見ても、シングルCDの

JBOOK:空が泣くから【通常盤】:ENDLICHERI☆ENDLICHERI:CD
http://www.jbook.co.jp/p/p.aspx/3264578/s
→ JAN:4534266002103
JBOOK:空が泣くから【完全初回限定盤】:ENDLICHERI☆ENDLICHERI:CD
http://www.jbook.co.jp/p/p.aspx/3264577/s/
→ JAN:4534266002097

といずれともうまく合致しない(規則性が見あたらない)。

眺めてみた感じでは、オリコンは楽曲が発表されるたびに同社独自の内部コードを割り当てて管理しているようだ。…チッ。ぼくが作ってたら絶対こんな大変なことはやらず、JANコードで流用するのに。

そういう意味ではオリコンは大変なおしごとですね(あてつけではない)。

つーことで、APIを使わずにスクレイピングでやろうとすると2の段階で挫折するというわけだ。もちろん、名称・アーティスト名からある程度当たりをつけることはできるので、精度を問わなければオッケーだけど。

ちなみに、元データにするなら

Yahoo!ミュージック - オリコンCD売り上げランキング - シングル編
http://rank.music.yahoo.co.jp/rank/cd/or/si/w/

のほうが正規化されていてキレイ。

追記:
つか、カウントダウンチューブがもうやってたか。

CDTubeβ - カウントダウンチューブ
http://pulpsite.net/cdtube/

[技術系]   IE7で簡単に検索プロバイダを追加する方法

at 22:53JST
IE7で、唯一文句が出ない追加機能はツールバーに追加された「検索バー」だろう。ここにはMSN以外にgoogleなどいろんな検索プロバイダを追加して、検索サイトを一元管理できる。

最近、この検索バーに
「手軽に検索プロバイダを追加する方法」
をマイクロソフトが提供しているのに気づいた。今まで気づかなかった。

まあ、検索サイト側でOpenSearch対応のXMLファイルを置いといてくれればなんの問題もないんだけど、そうもいかない。しかし、この方法を使えば「検索結果のURLをコピー&ペーストするだけで」プロバイダを追加できるのだ。

なんか気が向いたのでチャートで解説。

まず、IE7の検索バーの「▼」ボタンをクリックして、
「追加プロバイダの検索」
を選ぶ。
20070220mage1.png

MSのサイトに飛ぶ。このウィンドウはそのままにしておこう。
20070220mage2.png

別のウィンドウかタブで、検索バーに追加したい検索サイトに飛ぶ。ここでは
「gooの英和辞典検索」
を追加することにしよう。gooに飛ぶ。
20070220mage3.png

「TEST」を英和辞典検索する。ここで注意すべきなのは「TEST」はいずれも半角英数・大文字で入力するということ。入力したら検索実行。
20070220mage4.png

検索結果が出たら、その画面のURLをコピーしておく。
20070220mage5.png

さっきのMSの画面に戻ろう。
「URL」
欄にさっきコピーしたURLを貼る。そして
「名前」
欄にはわかりやすい名前…たとえば「goo英和」などと入れる。そうしたら「インストール」をクリック。
20070220mage6.png

ダイアログが出てくるので
「プロバイダの追加」
をクリック。
20070220mage7.png

これで、
20070220mage8.png

とこのように簡単に検索プロバイダの追加が完了してしまう。

どこが気に入ったかというと、マイクロソフトにしてはやり方がローテクだったので…^^; なんか超ハデな専用ツールとかダウンロードさせたりしないというのがツボにハマった。もしかしてFirefoxもおんなじようなやり方で提供してるのかな? まあ、Firefoxなんて死んでも使いませんが。ゲイツ様命ですので。

[技術系]   IPv4アドレス割り当て停止は2011年になる?

at 20:49JST
JANOGを読んでたら、IPv4アドレス枯渇に向けたプロポーザルが紹介されていた。janog:07565。

実際に決まったとかいう話ではないのだが、
「資源が実際に足りなくなってから
 いきなり割り当てを停止するとかいうのも不親切なので、
 あらかじめアナウンス→停止の日程を決めておこうよ」
ということで、一案として

・A-Date:アナウンス日
 IANAのIPv4アドレスプールが30 x /8を切った日
・T-Date: 割り当て停止日
 A-Dateの2年後。消費が早ければ前倒しあり

とすることを提案している。

ちなみに現在の消費状況は、
 年あたり10〜13 x /8
だ。IANAのアドレスプールは、残りが
 52 x /8
で。

ということは、
 2007年 10 x /8消費←今ココ!
 2008年 10 x /8消費
 2009年 陽春にA-Date到来
 2010年  きゃー、たいへんだわー by 世間
 2011年 陽春にT-Date到来
つーことになる。もともと枯渇する時期自体は2013年ごろと推定されていたのだが、ちょい前倒しっぽい。

おーい。あと3年でいろいろ変えなきゃならんのか…。ゆううつだ…。

何年も動いているものを構築しなおさなきゃいけないことほどめんどうなことはない。そもそもうちのサーバは、10年前にソフトウェア構成を固めて移転のたびに同じ環境を構築しなおして維持しているので、これを見直すのはすごく体力が…少なくともメールサーバはqmailを捨てることが確定したな。宅内ファイルサーバも…Windows 2000 Serverはリプレースしたほうがよさそうだ。ああ、またライセンス料10万とかふんだくられんのか。

まあ、実際にT-Dateが来ても世の中はv4セントリックでしばらく行くんだろうけどね。デフォルトでv6とダブルスタックなWindows Vistaが行き渡るのに、あと3年で間に合うかなあ。最大の問題はアプリケーションだよなあ…。

ただ、今はむかしと違ってDNSが当たり前になってるから(どんだけ昔だよ! と突っ込まれてしまうぼくはもはや老人か)、そんなに問題起きないのかね。個人的にはIPv6は0がいっぱい並ぶ感じがして気持ちが悪いよ。省略できるのも逆にめんどくさい。

[雑記]   頭痛い

at 16:40JST
頭痛がする。

昨日、調子悪いのでポカリスエットを買ってきた。それでずっと飲んでいたら頭が痛くなってしまった。

そういえば、ぼく、ポカリスエット飲むと頭痛になりやすい気がする。あと、いりことかも。なんだろ。カルシウムとかマグネシウムを含んだものをヘンに摂りすぎると痛くなるような気がするんだよなあ。

偏頭痛の原因にカルシウムが関係していたような気がする。似たようなものかもしれない。

さすがに「ポカリスエット+頭痛」でググっても、おなじ症状の人はいないようだ。誰か科学的に解明してほしいよ。そういう要求自体が科学的でないが。

[雑記]   メルモ

at 15:31JST
まぐクリック、シャープのモバイル向けメルマガ配信ASP「メルモ」を譲り受け - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20343450,00.htm?ref=rss

時代の終わりのはじまり、からけっこう経ってるけど。

[雑記]   うちのサイトに出た有機野菜のAdWords広告

at 00:09JST
本物の無農薬野菜・無農薬玄米の見分け方
「枯れる」野菜と「腐る」野菜 無農薬にも2種類ある
http://www.naturalharmony.co.jp/trust/yasai-miwakekata/
だから私たちは、肥料を入れない「自然栽培」のお米や野菜を広げる活動をしています!


施肥しないで栽培を繰り返したら、土が痩せて荒れ地になってしまうよう。こわいよう。

さらに過去の記事
2009/04 (1)   2008/12 (3)   2008/11 (9)   2008/10 (10)   2008/09 (20)   2008/08 (2)   2008/07 (23)   2008/06 (16)   2008/05 (22)   2008/04 (11)   2008/03 (21)   2008/02 (20)   2008/01 (21)   2007/12 (32)   2007/11 (37)   2007/10 (46)   2007/09 (63)   2007/08 (33)   2007/07 (41)   2007/06 (81)   2007/05 (173)   2007/04 (168)   2007/03 (113)   2007/02 (123)   2007/01 (92)   2006/12 (111)   2006/11 (185)   2006/10 (20)  

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。