Хороший набор данных для анализа настроений? [закрытый]
Я работаю над анализом настроений, и я использую набор данных, приведенный в этой ссылке:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
и я разделил свой набор данных на соотношение 50:50. 50% используются в качестве тестовых образцов и 50% используются в качестве образцов поездов и признаков, извлеченных из образцов поездов и выполнить классификацию с помощью классификатора Weka, но моя точность предикации составляет около 70-75%.
может кто-нибудь предложить некоторые другие наборы данных, которые могут помочь мне увеличить результат - я использовал unigram, bigram и POStags в качестве моего особенности.
3 ответов
существует много источников для получения набора данных анализа настроений:
- огромный набор данных ngrams от google storage.googleapis.com/books/ngrams/books/datasetsv2.html
- http://www.sananalytics.com/lab/twitter-sentiment/
- http://inclass.kaggle.com/c/si650winter11/data
- http://nlp.stanford.edu/sentiment/treebank.html
- или вы можете посмотреть в этот глобальный ML хранилище данных: https://archive.ics.uci.edu/ml
в любом случае, это не означает, что это поможет вам получить лучшую точность для вашего текущего набора данных, потому что корпус может сильно отличаться от вашего набора данных. Помимо уменьшения процента тестирования и обучения, вы можете: протестировать другие классификаторы или настроить все гиперпараметры с помощью полуавтоматической оболочки, такой как CVParameterSelection или GridSearch, или даже auto-weka, если он подходит.
Это довольно редко для использования 50/50, 80/20 довольно обыкновенно происходя коэффициент. Лучшей практикой является использование: 60% для обучения, 20% для перекрестной проверки, 20% для тестирования.
Я начал собирать инструменты анализа настроений / наборы данных / лексиконы в одном месте, это может быть полезно и для вас:https://github.com/laugustyniak/awesome-sentiment-analysis
начните PR, если вы хотите добавить что-то еще или просто напишите Мне. Я много работал с данными Амазонки [миллионы].
вот список наборов данных, которые дают чувства для отдельных слов.. http://positivewordsresearch.com/sentiment-analysis-resources/