Как оценить систему рекомендаций на основе контента

Я создаю систему рекомендаций фильмов на основе контента. Это просто, просто дать пользователю ввести название фильма и система найдет фильм, который имеет наиболее близкие характеристики.

после вычисления сходства и сортировки баллов в порядке убывания я нахожу соответствующие фильмы 5 самых высоких баллов сходства и возвращаюсь к пользователям.

все работает хорошо до сих пор, когда я хочу оценить точность системы. Некоторые формулы, которые я нашел в Google просто оцените точность на основе значений рейтинга (сравнивая прогнозируемый рейтинг и фактический рейтинг, как RMSE). Я не менял оценку сходства на рейтинг (шкала от 1 до 5), поэтому я не мог применить какую-либо формулу.

можете ли вы предложить какой-либо способ преобразования оценки сходства в прогнозируемый рейтинг, чтобы я мог применить RMSE? Или есть идея решения этой проблемы ?

1 ответов


есть ли у вас какая-либо истина? Например, есть ли у вас информация о фильмах, которые пользователь любил/видел / купил в прошлом? Это не обязательно должен быть рейтинг, но для оценки рекомендации вам необходимо знать некоторую информацию о предпочтениях пользователя.

Если вы это сделаете, то есть и другие способы измерения точности, кроме СКО. RMSE используется, когда мы прогнозируем рейтинги (как вы сказали, это ошибка между реальным рейтингом и прогнозом), но в вашем случае вы генерируете лучшие N рекомендаций. В этом случае вы можете использовать точность и отзыв, чтобы оценить свои рекомендации. Они очень используются в приложениях поиска информации (см. Википедия), и они также очень распространены в рекомендательных системах. Вы также можете вычислить метрику F1, которая является гармоническим средним точности и отзыва. Вы увидите, что это очень простые формулы и их достаточно легко реализовать.

"оценка систем Recommendar" Гая Шани очень хороший статья о том, как оценить рекомендательные системы, и даст вам хорошее представление о всем этом. Вы можете найти бумагу здесь.