Какой анализатор lucene можно использовать для обработки японского текста?

какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен уметь обращаться с Кандзи, хираганой, катаканой, Ромаджи и любой их комбинацией.

2 ответов


нашел в Lucene-госэн при выполнении поиска для моих собственных целей:

их пример выглядит довольно прилично, но я думаю, что это то, что нуждается в обширном тестировании. Я также обеспокоен их политикой обратной совместимости (или, скорее, полным отсутствием таковой.)


вы, вероятно, должны посмотреть на CJK пакет, который находится в области contrib Lucene. Анализатор и токенизатор специфически для общаться с китайцем, японцем, и корейцем.