infosearch

03: 検索のためのテキスト処理

検索のためのテキスト処理

頻度計算

コーパス

テキストの統計

Zipfの法則

ヒープの法則

検索結果の文書数の推定

検索語の正規化

トークン

ストップワードの除去

ステミング

フレーズ検索

品詞タグ付け

単語 N-グラム

文書の構造とマークアップ言語

アンカーテキスト

ページランク

ランダムサーファーモデル

ページランクの計算

リンクの品質