Stanford POS tagger в использовании Java
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
это ошибки, которые я получаю, когда хочу назначить теги POS для предложений. Я читаю предложения из файла. Первоначально (для нескольких предложений) я не получаю эту ошибку (i.e untokenizable), но после прочтения некоторых предложений эта ошибка возникает. Я использую v2.0 (т. е. 2009) из POS tagger и model является left3words
.
4 ответов
Я согласен с Yuval -- проблема кодирования символов, но самый распространенный случай на самом деле, когда файл находится в одной байтовой кодировке, такой как ISO-8859-1, в то время как Таггер пытается прочитать его в UTF-8. См. обсуждение U+FFFD на Википедия.
Это похоже на проблему кодирования для меня. Можете ли вы опубликовать оскорбительный приговор? Я не мог найти это в документации, но я бы попытался проверить, находится ли файл в кодировке UTF-8.
Я тоже столкнулся с этой проблемой. Один из способов проверить, является ли символ tokenizable-проверить, не терпит ли он неудачу символ.isIdentifierIgnorable (). Символ, который неокончаем, вернется true
, хотя все tokenizable персонажи вернутся false
.
Если Вы читаете контент из DOC, Portable Document Format (PDF), используйте Apache Tika. Он будет извлекать ваш контент. Это может тебе помочь.
о TIKA
Apache Tika-это инструментарий для обнаружения и извлечения метаданных и структурированного текстового контента из различных документов с использованием существующих библиотек анализаторов. Он написан на Java, но включает в себя версию командной строки для использования из других языки.
дополнительная информация о Tika, трекер ошибок, списки рассылки, загрузки и многое другое доступны наhttp://tika.apache.org/