2. @johtani さん
lucene-gosenの話(仮)
転置インデックス
→単語をKEYにして、ドキュメントIDの配列を値とする表を作成
・N-gram解析
辞書がいらないので、流行語に強い
しかし、ノイズがたくさんヒットする
・形態素解析
品詞情報活用できる、意味のある単語がヒットしてくる
辞書に載っていない単語を抽出しにくい、辞書のメンテナンス
Javaで利用できる形態素解析器
sen(バイナリ版なし)
gosen(現在、サイトがない)
cmecab-java(mecabが必要)
kuromoji(LucenにContributeされた)
lucene-gosen
gosenの進化系
http://code.google.com/p/lucene-gosen/
compositePOS
ナイスとジェーリック?(辞書)
カスタム辞書
いくつもの日本語用のFilterが用意されている
http://code.google.com/p/lucene-gosen/source/browse/trunk/src/java/org/apache/lucene/analysis/ja/?r=91
おまけ-kuromoji
http://atilika.org/#