Классификация данных с помощью Apache Mahout

Я пытаюсь решить простую задачу классификации.

Проблема:
У меня есть набор текста, и я должен классифицировать их на основе содержимого.

решение с использованием Mahout:
Я понял, что мне нужно преобразовать входные данные в файл последовательности для генерации модели. Да, я смог это сделать. Теперь, как я могу классифицировать свои тестовые данные? Пример 20News проверяет только правильность. Но я хочу провести классификацию.
Я не уверен, Нужно ли писать код или использовать некоторые существующие классы для классификации тестового набора.?

2 ответов


Я ненавижу подключать свою собственную работу, но мы поместили целый раздел в Mahout в действие о классификации. Теория, примеры кода, практика тематических исследований, даже целая реализация фермы серверов.

вы можете получить предварительную версию на http://www.manning.com/owen/


У меня аналогичная проблема.

под управлением

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

будет разделять текстовый файл на основе модели.

Это может продвинуть вас немного вперед, но я предполагаю, что, как и я, вы хотите классифицировать всю загрузку документов, и вам нужен вывод в полезном формате.

возможно, придется запрограммировать немного java для этого. У кого-то есть пример, который выглядит так, как будто он будет делать то, что я хочу https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java