Хороший набор данных для анализа настроений? [закрытый]

Question

Хороший набор данных для анализа настроений? [закрытый]

Я работаю над анализом настроений, и я использую набор данных, приведенный в этой ссылке:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html и я разделил свой набор данных на соотношение 50:50. 50% используются в качестве тестовых образцов и 50% используются в качестве образцов поездов и признаков, извлеченных из образцов поездов и выполнить классификацию с помощью классификатора Weka, но моя точность предикации составляет около 70-75%.

может кто-нибудь предложить некоторые другие наборы данных, которые могут помочь мне увеличить результат - я использовал unigram, bigram и POStags в качестве моего особенности.

12

dataset sentiment-analysis web-mining

автор: Keeth

3 ответов

автор: doxav · Accepted Answer · 2018-02-04 19:48:14

существует много источников для получения набора данных анализа настроений:

огромный набор данных ngrams от google storage.googleapis.com/books/ngrams/books/datasetsv2.html
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
или вы можете посмотреть в этот глобальный ML хранилище данных: https://archive.ics.uci.edu/ml

в любом случае, это не означает, что это поможет вам получить лучшую точность для вашего текущего набора данных, потому что корпус может сильно отличаться от вашего набора данных. Помимо уменьшения процента тестирования и обучения, вы можете: протестировать другие классификаторы или настроить все гиперпараметры с помощью полуавтоматической оболочки, такой как CVParameterSelection или GridSearch, или даже auto-weka, если он подходит.

Это довольно редко для использования 50/50, 80/20 довольно обыкновенно происходя коэффициент. Лучшей практикой является использование: 60% для обучения, 20% для перекрестной проверки, 20% для тестирования.

автор: l.augustyniak · Accepted Answer · 2018-05-17 19:10:32

Я начал собирать инструменты анализа настроений / наборы данных / лексиконы в одном месте, это может быть полезно и для вас:https://github.com/laugustyniak/awesome-sentiment-analysis

начните PR, если вы хотите добавить что-то еще или просто напишите Мне. Я много работал с данными Амазонки [миллионы].

автор: Default picture · Accepted Answer · 2018-05-27 18:39:36

вот список наборов данных, которые дают чувства для отдельных слов.. http://positivewordsresearch.com/sentiment-analysis-resources/