Introduction to Information Retrievaの輪読 #04

今日は、IIR輪読会でした。
[2008-02-16-2] の #03 に引き続き、#03です。
終わったのは、第3.3節から第4章の概説まで。つづきは次回。

今日の会場は渋谷のはてなの会議室でした。

画像

今回も冒頭はnaoyaさんの復習プレゼン。分かりやす。

- naoya さんによるIntroduction to Information Retrievaの輪読の資料
-- http://bloghackers.net/~naoya/iir/ppt/

3章の担当は、僕でした。軽く忘れていてグダグダになりがちでした。
内容は、スペルコレクション(単語のつづり誤り訂正)のお話。

- n-gram に基づく単語Indexの活用
- 動的計画法による編集距離の算出

- [を] Dynamic Programming による類似文字列マッチの実装例
-- http://chalow.net/2007-01-22-4.html

DP はいわゆる「類似文字列検索(あいまい検索)」に使うと 便利なアルゴリズム。 実は、大学院でも前の会社でも、PerlやらC++やらで実装して使ってた。 単純ながら使い勝手もよく、まさに現場向きかと。


- n-gram の重なりに基づく尺度の活用
- 検索エンジンのフレーズ検索の活用
- 音素ハッシュによるスペル訂正

などなど。

スペルコレクションは、「クエリと修正候補の近さ」と「修正候補の一般性」
の2つの尺度を、どのように定め、それらの尺度をどのように算出するかで、
結果が大きく変わります。

今回は初歩的な教科書的な手法を学んだので、
今後、実装するアプリには、より洗練された手法を取り入れたいです。

IIR輪読が終わったあとは、たつをさんが過去におこなったプレゼンを紹介。
単語に適用するスペルコレクションの技術を、
単語を文字扱いして文に適用することによって、
類似文書検索を実装した話をしてくれました。
機械翻訳アプリなどの用例検索に利用したのだそうです、面白かったです。

類似文書検索を転置Index + Suffix Arrayで実装したとのことですが、
近年の全文検索アプリ + αで実装すると、
探索時間が短いアプリを手軽に実現できるかも。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック() |