2. @johtani さん

  lucene-gosenの話(仮)

転置インデックス
→単語をKEYにして、ドキュメントIDの配列を値とする表を作成

N-gram解析
辞書がいらないので、流行語に強い
しかし、ノイズがたくさんヒットする
形態素解析
品詞情報活用できる、意味のある単語がヒットしてくる
辞書に載っていない単語を抽出しにくい、辞書のメンテナンス

主な辞書
juman/chasen/mecab/kytea

Javaで利用できる形態素解析
sen(バイナリ版なし)
gosen(現在、サイトがない)
cmecab-java(mecabが必要)
kuromoji(LucenにContributeされた)

lucene-gosen
gosenの進化系
http://code.google.com/p/lucene-gosen/

compositePOS
ナイスとジェーリック?(辞書)
カスタム辞書

いくつもの日本語用のFilterが用意されている
http://code.google.com/p/lucene-gosen/source/browse/trunk/src/java/org/apache/lucene/analysis/ja/?r=91

おまけ-kuromoji
http://atilika.org/#