2007/03/18

[技術系]   クロールの下調べをしてみる

at 01:42JST
 
Yahoo!ブログ検索 - 検索オプション
http://blog-search.yahoo.co.jp/option

はキーワード無指定・期間指定の検索はできないが、

(て に を は が あ い う え お か き く け こ さ し す せ そ)

をフレーズ検索してやると、ほぼ指定期間のエントリがすべてヒットする。この手法は、某所で企業情報をねこそぎ引っ張ったりするときにもキーワードに「株」を入れるとゴニョゴニョ…ということで。

試しに2005年から各年の一月のヒット件数をまとめてみると、
期間			総件数	1日	1時間あたり
2005/01/01-2005/01/31 297177 9586 399
2006/01/01-2006/01/31 2982408 96206 4008
2007/01/01-2007/01/31 4804278 154976 6457

ということがわかる。とはいえ、2007年は3月までしかないので母集団の偏りをなくすためには対象にできないだろう。

仮に、これを使って2005/01/01〜2006/12/31に毎日1時間おきに10件ずつのエントリURLを取得した場合、

10*24*365*2=175200

ということで、26万2千800件の文書を収集できることになる。

カケラの樹キーワード抽出
http://yune-kotomi.tarenari.jp/page/show/%E3%82%AD%E3%83%BC%E3%83%AF%E3%83%BC%E3%83%89%E6%8A%BD%E5%87%BA%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%B3

が、87091件のコーパスを使用しているということなので、これよりも量的には多いことになる。量が多ければいいというものでもないけど。問題は、
・blogに特化し
・広汎で
・偏りのない
資料を収集できるかどうかだ。

Yahoo!はブログ検索への参入がやや遅かったので、2005年あたりのデータに偏りがある危険性が否定できない。でも、gooブログは

ブログの詳細検索 - goo ブログ
http://blog.goo.ne.jp/search_goo/?MT=&st=time&da=all&dc=10&dp=all&ts=goo&tg=all

日付指定ができない。Technorati JAPANも

テクノラティブログ検索
http://www.technorati.jp/search/

できません。つーことで代替リソースは存在しないような気がする。
関連しそうな過去記事:
さらに過去の記事
2009/04 (1)   2008/12 (3)   2008/11 (9)   2008/10 (10)   2008/09 (20)   2008/08 (2)   2008/07 (23)   2008/06 (16)   2008/05 (22)   2008/04 (11)   2008/03 (21)   2008/02 (20)   2008/01 (21)   2007/12 (32)   2007/11 (37)   2007/10 (46)   2007/09 (63)   2007/08 (33)   2007/07 (41)   2007/06 (81)   2007/05 (173)   2007/04 (168)   2007/03 (113)   2007/02 (123)   2007/01 (92)   2006/12 (111)   2006/11 (185)   2006/10 (20)  
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。