Stanford POS tagger в использовании Java

Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)

это ошибки, которые я получаю, когда хочу назначить теги POS для предложений. Я читаю предложения из файла. Первоначально (для нескольких предложений) я не получаю эту ошибку (i.e untokenizable), но после прочтения некоторых предложений эта ошибка возникает. Я использую v2.0 (т. е. 2009) из POS tagger и model является left3words.

4 ответов


Я согласен с Yuval -- проблема кодирования символов, но самый распространенный случай на самом деле, когда файл находится в одной байтовой кодировке, такой как ISO-8859-1, в то время как Таггер пытается прочитать его в UTF-8. См. обсуждение U+FFFD на Википедия.


Это похоже на проблему кодирования для меня. Можете ли вы опубликовать оскорбительный приговор? Я не мог найти это в документации, но я бы попытался проверить, находится ли файл в кодировке UTF-8.


Я тоже столкнулся с этой проблемой. Один из способов проверить, является ли символ tokenizable-проверить, не терпит ли он неудачу символ.isIdentifierIgnorable (). Символ, который неокончаем, вернется true, хотя все tokenizable персонажи вернутся false.


Если Вы читаете контент из DOC, Portable Document Format (PDF), используйте Apache Tika. Он будет извлекать ваш контент. Это может тебе помочь.

Apache Tika

о TIKA

Apache Tika-это инструментарий для обнаружения и извлечения метаданных и структурированного текстового контента из различных документов с использованием существующих библиотек анализаторов. Он написан на Java, но включает в себя версию командной строки для использования из других языки.

дополнительная информация о Tika, трекер ошибок, списки рассылки, загрузки и многое другое доступны наhttp://tika.apache.org/