может ли NLTK / pyNLTK работать "на язык" (т. е. не английский) и как?

Как я могу сказать NLTK обрабатывать текст на определенном языке?

время от времени я пишу специализированную процедуру НЛП для пометки, токенизации и т. д. на неанглийском (но все же индоевропейском) текстовом домене.

этот вопрос, похоже, касается только разных корпусов, а не изменения кода / настроек: POS пометки на немецком языке

кроме того, существуют ли специализированные модули НЛП на иврите/испанском/польском языках для python?

1 ответов


Я не уверен, что вы имеете в виду как изменения в коде/настройках. NLTK в основном полагается на машинное обучение, и "настройки" обычно извлекаются из данных обучения.

когда дело доходит до POS-тегов, результаты и пометки будут зависеть от теггера, который вы используете/поезд. Если вы тренируетесь самостоятельно, вам, конечно, понадобятся некоторые данные обучения на испанском / польском языках. Причина, по которой это может быть трудно найти, заключается в отсутствии общедоступного материала золотого стандарта. Есть инструменты там, чтобы сделать это, но это не для python (http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/).

класса nltk.маркировки.punkt.PunktSentenceTokenizer tokenizer будет токенизировать предложения в соответствии с многоязычными границами предложений, детали которых можно найти в этой статье (http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485).