infosearch

01: 情報検索とサーチエンジン

概要

内容

目標

学会

情報検索とは

情報の構造,分析,組織化,格納,探索,検索を研究する分野である” (G. Salton, 1968)

文章って具体的に何?

データベースとの親和性

情報検索の課題

サーチエンジンの課題

サーチエンジンのアーキテクチャ

索引付け

  1. テキストの収集
    • クローリング
    • 索引付けのための文書を判定して格納
  2. テキストのデータベース化
    • ストップワードの除去(Stopping)
    • 文書に共通に出現する語の除去(“and”, “or”, “the”, “in”) - ステミング(Stemming)
    • 活用基本形を利用した単語のグループ化(基本形に単語を正規化するなど)
    • 英語ならPorter Stemmer - 属性ごとに抽出 - 文書を索引語(または特徴素)に変形
  3. 索引の生成
    • 文書の統計情報(Document statistics)
    • 重み付け(Weighting)
    • tfidfが有名 - 獲得した索引語から高速検索を実現するためにデータ構造(索引)を生成 - そしてDBと言う名の索引へ格納

クエリ処理