01: 情報検索とサーチエンジン
- 関洋平先生
- コミュニケーション理解研究室
- 情報アクセス,自然言語処理
- スマートソーシャルシティ
概要
内容
- 情報検索システムのうち,サーチエンジンの仕組に焦点を当てて解説
- 最近の研究における情報検索システム
- 検索エンジンの実習講義
目標
- サーチエンジンの仕組みを理解
- サーチエンジンの評価手法も理解
学会
- 情報検索といえば,ACM SIGIR
- 他の国際会議:ECIR, CIKM, WSDM, WWW
- 評価型ワークショップ:TREC, CLEF, NTCIR
- アジア向け:Asia Information Retrieval Societies Conference (AIRS)
- 日本向け:情報処理学会情報基礎とアクセス技術研究会
情報検索とは
情報の構造,分析,組織化,格納,探索,検索を研究する分野である”
(G. Salton, 1968)
文章って具体的に何?
- 探す価値のあるコンテンツ
- 構造を持っている
- 論文: タイトル, 著者, 日付
- メール: サブジェクト(件名), 送信者
データベースとの親和性
- DBは明確な属性値を持っているためかんたんに照合・比較可能
- 文書を対象とした検索は
情報検索の課題
- 適合性
- 評価
- 再現率(Recall) = ヒットした適合文書(Reasonate) / 検索範囲の文書数(N)
- 精度(Precision) = ヒットした適合文書(Reasonate) / 検索範囲の正解文書(Correct)
- テスト用データ: NTCIRテストコレクション
- ユーザと情報要求
サーチエンジンの課題
- パフォーマンス
- 新規データの追加
- 更新,追加,削除が激しいWeb
- 文書のクローリング
- スケーラビリティ
- 適用可能性
- スパム検出
サーチエンジンのアーキテクチャ
- 検索用ソフトウェア+検索インタフェース(入出力画面)
- 効果(検索結果の質)と,効率(応答時間,単位処理時間)は設計次第
- 索引付け+クエリ処理
索引付け
- テキストの収集
- テキストのデータベース化
- 文書に共通に出現する語の除去(“and”, “or”, “the”, “in”)
- ステミング(Stemming)
- 活用基本形を利用した単語のグループ化(基本形に単語を正規化するなど)
- 英語ならPorter Stemmer
- 属性ごとに抽出
- 文書を索引語(または特徴素)に変形
- 索引の生成
- 文書の統計情報(Document statistics)
- 重み付け(Weighting)
- tfidfが有名
- 獲得した索引語から高速検索を実現するためにデータ構造(索引)を生成
- そしてDBと言う名の索引へ格納
クエリ処理
- ユーザとのやりとり
- ランキング
- クエリ+索引を利用したランキングリストの作成
- 基本的なスコア計算は,∑qidi
- qiとdiは,クエリqと文書dに現れる用語iに対する文書の重み
- 確率的ランキングアルゴリズム(BM25)や検索モデル(クエリ尤度モデル)
- 評価