Оптимальное значение epsilon (ϵ-greedy)

ϵ-жадная политика

Я знаю, что алгоритм Q-обучения должен попытаться сбалансировать между разведка и эксплуатация. Поскольку я новичок в этой области, я хотел реализовать простую версию поведения разведки/разработки.

оптимальное значение Эпсилона

моя реализация использует политику greedy-greedy, но я в недоумении, когда дело доходит до определения значения epsilon. Должен ли epsilon быть ограничен количеством раз алгоритм посетил заданную пару (состояние, действие) или должен быть ограничен количеством выполненных итераций?

Мое предложение:
  1. понижайте значение epsilon при каждом обнаружении заданной пары (состояние, действие).
  2. понизьте значение epsilon после выполнения полной итерации.
  3. понизьте значение Эпсилона для каждого раза, когда мы сталкиваемся с состоянием s.

высоко ценится!

2 ответов


хотя во многих простых случаях ek хранится как фиксированное число в диапазоне 0 и 1, Вы должны знать, что: Обычно исследование уменьшается со временем, так что используемая асимптотически политика становится жадной и, следовательно (как Qk → Q∗) оптимальной. Это может быть достигнуто путем приближения ek к 0 по мере роста k. Например, ε-жадный график исследования вида ek = 1/k уменьшается до 0 как K→ ∞, при этом все еще удовлетворяя второму условию сходимости Q-обучения, т. е. бесконечно много посещений всех пар состояние-действие (Singh et al., 2000).

то, что я обычно делаю, это: установите начальную альфа = 1/k (рассмотрим начальную K = 1 или 2) после того, как вы идете испытание за испытанием, как K увеличивает Альфа будет уменьшаться. это также гарантирует сходимость.


обычно разумно просто установить ε на положительную константу, если у вас нет веской причины не делать этого.