Извлечение слов из текстового файла
предположим, у вас есть текстовый файл, как этот: http://www.gutenberg.org/files/17921/17921-8.txt
есть ли у кого-нибудь хороший алгоритм или открытый исходный код для извлечения слов из текстового файла? Как получить все слова, избегая при этом специальных символов и сохраняя такие вещи, как "это" и т. д...
Я работаю на Java. Спасибо
5 ответов
Это похоже на правильную работу для регулярных выражений. Вот код Java, чтобы дать вам представление, если вы не знаете, как начать:
String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\w']+");
Matcher m = p.matcher(input);
while ( m.find() ) {
System.out.println(input.substring(m.start(), m.end()));
}
шаблон [\w']+
соответствует всем символам слова и Апострофу несколько раз. Строка примера будет напечатана слово за словом. Взгляните на документация по классу шаблонов Java подробнее.
псевдокод будет выглядеть следующим образом:
create words, a list of words, by splitting the input by whitespace
for every word, strip out whitespace and punctuation on the left and the right
код python будет примерно таким:
words = input.split()
words = [word.strip(PUNCTUATION) for word in words]
здесь
PUNCTUATION = ",. \n\t\\"'][#*:"
или любые другие символы, которые вы хотите удалить.
Я считаю, что Java имеет эквивалентные функции в классе String:строка.расщеплять. )(
вывод этого кода на текст, который вы указали в своей ссылке:
>>> print words[:100]
['Project', "Gutenberg's", 'Manual', 'of', 'Surgery', 'by', 'Alexis',
'Thomson', 'and', 'Alexander', 'Miles', 'This', 'eBook', 'is', 'for',
'the', 'use', 'of', 'anyone', 'anywhere', 'at', 'no', 'cost', 'and',
'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may',
'copy', 'it', 'give', 'it', 'away', 'or', 're-use', 'it', 'under',
... etc etc.
вот это хороший подход к вашей проблеме: Эта функция получает текст в качестве входных данных и возвращает массив всех слов, входящих в заданный текст
private ArrayList<String> get_Words(String SInput){
StringBuilder stringBuffer = new StringBuilder(SInput);
ArrayList<String> all_Words_List = new ArrayList<String>();
String SWord = "";
for(int i=0; i<stringBuffer.length(); i++){
Character charAt = stringBuffer.charAt(i);
if(Character.isAlphabetic(charAt) || Character.isDigit(charAt)){
SWord = SWord + charAt;
}
else{
if(!SWord.isEmpty()) all_Words_List.add(new String(SWord));
SWord = "";
}
}
return all_Words_List;
}
вы можете попробовать regex, используя шаблон, который вы сделали, и запустить подсчет количества раз, когда этот шаблон был найден.