Какой анализатор lucene можно использовать для обработки японского текста?
какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен уметь обращаться с Кандзи, хираганой, катаканой, Ромаджи и любой их комбинацией.
2 ответов
нашел в Lucene-госэн при выполнении поиска для моих собственных целей:
их пример выглядит довольно прилично, но я думаю, что это то, что нуждается в обширном тестировании. Я также обеспокоен их политикой обратной совместимости (или, скорее, полным отсутствием таковой.)
вы, вероятно, должны посмотреть на CJK пакет, который находится в области contrib Lucene. Анализатор и токенизатор специфически для общаться с китайцем, японцем, и корейцем.