Stanford POS tagger в использовании Java

Question

Stanford POS tagger в использовании Java

Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)

это ошибки, которые я получаю, когда хочу назначить теги POS для предложений. Я читаю предложения из файла. Первоначально (для нескольких предложений) я не получаю эту ошибку (i.e untokenizable), но после прочтения некоторых предложений эта ошибка возникает. Я использую v2.0 (т. е. 2009) из POS tagger и model является left3words.

11

java pos-tagger stanford-nlp

автор: Alexey Grigorev

4 ответов

автор: Christopher Manning · Accepted Answer · 2011-03-10 04:39:13

Я согласен с Yuval -- проблема кодирования символов, но самый распространенный случай на самом деле, когда файл находится в одной байтовой кодировке, такой как ISO-8859-1, в то время как Таггер пытается прочитать его в UTF-8. См. обсуждение U+FFFD на Википедия.

автор: Yuval F · Accepted Answer · 2011-03-09 09:06:54

Это похоже на проблему кодирования для меня. Можете ли вы опубликовать оскорбительный приговор? Я не мог найти это в документации, но я бы попытался проверить, находится ли файл в кодировке UTF-8.

автор: Adam_G · Accepted Answer · 2014-07-11 21:55:24

Я тоже столкнулся с этой проблемой. Один из способов проверить, является ли символ tokenizable-проверить, не терпит ли он неудачу символ.isIdentifierIgnorable (). Символ, который неокончаем, вернется true, хотя все tokenizable персонажи вернутся false.

автор: Rahul Kulhari · Accepted Answer · 2013-08-01 07:13:42

Если Вы читаете контент из DOC, Portable Document Format (PDF), используйте Apache Tika. Он будет извлекать ваш контент. Это может тебе помочь.

Apache Tika

о TIKA

Apache Tika-это инструментарий для обнаружения и извлечения метаданных и структурированного текстового контента из различных документов с использованием существующих библиотек анализаторов. Он написан на Java, но включает в себя версию командной строки для использования из других языки.

дополнительная информация о Tika, трекер ошибок, списки рассылки, загрузки и многое другое доступны наhttp://tika.apache.org/