infosearch

01: 情報検索とサーチエンジン

関洋平先生
コミュニケーション理解研究室
- 情報アクセス，自然言語処理
- スマートソーシャルシティ

概要

内容

情報検索システムのうち，サーチエンジンの仕組に焦点を当てて解説
最近の研究における情報検索システム
検索エンジンの実習講義
- ネットワーク接続可能なノートPCがあるとよい。

目標

サーチエンジンの仕組みを理解
サーチエンジンの評価手法も理解

学会

情報検索といえば，ACM SIGIR
他の国際会議：ECIR, CIKM, WSDM, WWW
評価型ワークショップ：TREC, CLEF, NTCIR
アジア向け：Asia Information Retrieval Societies Conference (AIRS)
日本向け：情報処理学会情報基礎とアクセス技術研究会

情報検索とは

情報の構造，分析，組織化，格納，探索，検索を研究する分野である” (G. Salton, 1968)

主な検索対象は文書(伝統的には)

文章って具体的に何？

探す価値のあるコンテンツ
構造を持っている
- 論文: タイトル, 著者, 日付
- メール: サブジェクト(件名), 送信者

データベースとの親和性

DBは明確な属性値を持っているためかんたんに照合・比較可能
文書を対象とした検索は

情報検索の課題

適合性
評価
- 再現率(Recall) = ヒットした適合文書(Reasonate) / 検索範囲の文書数(N)
- 精度(Precision) = ヒットした適合文書(Reasonate) / 検索範囲の正解文書(Correct)
- テスト用データ: NTCIRテストコレクション
ユーザと情報要求

サーチエンジンの課題

パフォーマンス
- 検索効率の判定と向上
- 索引(Indexing)
新規データの追加
- 更新，追加，削除が激しいWeb
- 文書のクローリング
スケーラビリティ
適用可能性
スパム検出

サーチエンジンのアーキテクチャ

検索用ソフトウェア+検索インタフェース（入出力画面）
効果（検索結果の質）と，効率（応答時間，単位処理時間）は設計次第
索引付け+クエリ処理

索引付け

テキストの収集
- クローリング
- 索引付けのための文書を判定して格納
テキストのデータベース化
- ストップワードの除去(Stopping)
- 文書に共通に出現する語の除去(“and”, “or”, “the”, “in”) - ステミング(Stemming)
- 活用基本形を利用した単語のグループ化(基本形に単語を正規化するなど)
- 英語ならPorter Stemmer - 属性ごとに抽出 - 文書を索引語（または特徴素）に変形
索引の生成
- 文書の統計情報(Document statistics)
- 重み付け(Weighting)
- tfidfが有名 - 獲得した索引語から高速検索を実現するためにデータ構造（索引）を生成 - そしてDBと言う名の索引へ格納

クエリ処理

ユーザとのやりとり
- クエリの改善
ランキング
- クエリ+索引を利用したランキングリストの作成
- 基本的なスコア計算は，∑qidi
  - qiとdiは，クエリqと文書dに現れる用語iに対する文書の重み
- 確率的ランキングアルゴリズム（BM25）や検索モデル（クエリ尤度モデル）
評価
- 効率+効果の評価