infosearch

02: 検索対象文書の収集:クローラとフィード

ウェブクローラとは

ウェブページを見つけてダウンロードし,検索対象の文書集合を集める道具

  1. DNSに問い合わせることにより,ホスト名をIPアドレスに変換
  2. 特定のポートによりサーバに接続
  3. GET リクエストによりページを収集

フリーの検索サーバの構築

鮮度

深層ウェブ

サイトマップ

分散クロール

文書の格納

目的

要件

TREC Web

<DOC>
    <DOCNO> 1 </DOCNO>
    <TEXT>Index this document text.</TEXT>
</DOC>
...
<DOC>
    <DOCNO> 100 </DOCNO>
    <TEXT>Index this document text.</TEXT>
</DOC>

BigTable

完全重複ページの検出

類似重複ページの検出

Fingerprint

Simhash

ノイズ

文書フィード