2008/09/24

[技術系]   サイトのHTMLソースを見せない

at 00:39JST
 

「goo音楽」の歌詞情報ページは、他サイトがFlashなどでスクレイピング対策をするなか純粋なHTMLベースで構成されている。でも、Internet Explorerでアクセスした場合、メニューの「表示」→「ソース」を実行してもHTMLソースが表示されない。

たぶん、Cache-Controlなんだろうなあ…と思いつつ確認していなかった。が、いま手持ち無沙汰なので見てみたらほんとにそうだった。

たとえば、

She 堺正章 歌詞情報 - goo 音楽
http://music.goo.ne.jp/lyric/LYRUTND69943/index.html

にアクセスする(選曲に他意はない)。このページのレスポンスヘッダには、

Cache-Control: no-store, no-cache, must-revalidate

が含まれている。Internet Explorer + Windows環境では「ソースの表示」が「キャッシュに置かれているHTMLファイルをnotepadなどで開く」を意味するため、no-store, no-cacheではnotepadのspawnに失敗するようだ。

まあ、あれですね。
「右クリック禁止〜」
とか叫ぶよりは、ちょっとは高等テクニックですね。とはいえFirefoxなどでアクセスした場合は思いっきりソース表示可能なわけですが。

ちなみにgoo音楽の歌詞情報サービスはスクレイピングに優しい優良サイトなのであまり突っ込まないであげてください。


関連しそうな過去記事:
さらに過去の記事
2009/04 (1)   2008/12 (3)   2008/11 (9)   2008/10 (10)   2008/09 (20)   2008/08 (2)   2008/07 (23)   2008/06 (16)   2008/05 (22)   2008/04 (11)   2008/03 (21)   2008/02 (20)   2008/01 (21)   2007/12 (32)   2007/11 (37)   2007/10 (46)   2007/09 (63)   2007/08 (33)   2007/07 (41)   2007/06 (81)   2007/05 (173)   2007/04 (168)   2007/03 (113)   2007/02 (123)   2007/01 (92)   2006/12 (111)   2006/11 (185)   2006/10 (20)  
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。