Определение "настроения" текстовых фраз посредством лексического анализа

Я ищу, чтобы применить оценки (положительные, отрицательные или нейтральные) к коротким фразам текста. За исключением разбора смайликов и предположений, основанных на их использовании, я не уверен, что еще попробовать. Может ли кто-нибудь привести примеры, исследовательские работы, статьи и т. д. это требует более лексического анализа этой проблемы.

Я думаю, что такие вещи, как использование наречий, неправильное использование пунктуации / повторение, орфографические / грамматические ошибки могут быть достойными показателями настроения автора почти двоичный смысл (хороший или плохой).

3 ответов


Это звучит как довольно ясная задача двоичной классификации, где вы можете упростить проблему до положительного или отрицательного, а затем принять самые энтропийные решения или те, которые не достигли порога определенности с помощью массы вероятности, установленной на нейтраль.

вашим самым большим препятствием будет получение данных обучения для стохастического метода машинного обучения. Вы можете легко сделать это с помощью легкодоступной модели максимальной энтропии, такой как инструментарий для Advanced Дискриминационное Моделирование или молоток. Функции, которые вы описали, просто должны быть отформатированы для входных данных, используемых этими моделями.

чтобы получить данные обучения, вы можете либо сделать какой-то платный краудсорсинг, как механический турок Amazon, либо просто сделать это самостоятельно, возможно, с помощью друга. Вам понадобится много данных для этого. Вы можете улучшить прогнозную силу своей модели в свете нехватки данных с помощью таких подходов, как активное обучение, ансамбли или Повышение, но важно протестировать их против реальных данных как можно лучше и выбрать то, что лучше всего работает в практическом приложении.

Если вы ищете документы для этого, вы хотите посмотреть на термин "анализ настроений" в Google Scholar. Ассоциация компьютерной лингвистики имеет много бесплатных и полезных статей из конференций и журналов, которые рассматривают проблему с лингвистической, а также алгоритмической точка зрения. Я бы также просмотрел их архивы. Удачи!


Ну латентный семантический анализстатьи тоже) кажется ближайшей хорошо установленной областью исследования к тому, о чем вы говорите. Он менее "ценностно ориентирован" и больше ориентирован на более крупные документы, но все же может иметь некоторое отношение к вашей проблеме.


Это звучит как действительно интересная идея - мне было бы интересно посмотреть, что из этого выйдет.

Я бы сказал, что пунктуация-это один из индикаторов, которые вы можете использовать...

  • ? - вопрос
  • !?!? (или какой-то вариант) Неверится
  • ! С такими фразами, как глупый, идиотский и т. д... - Гнев
  • ... - колебаний, сарказм

вы также можете попробовать и выбрать на общеупотребительные сокращения как...

  • LOL - смеяться (положительный)
  • WTF, OMG - Неверие, Шок
  • ИМО - думаю, объяснения

Это явно довольно сложная вещь, которую вы хотите сделать, но это звучит очень интересно.