Обобщение Q-обучение работе с непрерывным* действием * пространством

Я пытаюсь заставить агента изучить движения мыши, необходимые для наилучшего выполнения какой-либо задачи в обстановке обучения подкреплению (т. е. сигнал вознаграждения является единственной обратной связью для обучения).

Я надеюсь использовать технику Q-обучения, но пока я нашел способ расширить этот метод для непрерывных пространств, Я не могу понять, как приспособить проблему с непрерывным пространством действия.

Я мог бы просто заставить все движения мыши быть определенной величины и только в определенном количестве различных направлений, но любой разумный способ сделать действия дискретными дал бы огромное пространство действия. Поскольку стандартное Q-обучение требует, чтобы агент оценивал все возможные действия, такое приближение не решает проблему в практическом смысле.

5 ответов


общим способом решения этой проблемы является актерско-критические методы. Эти естественно удлиняют к космосам непрерывного действия. Основное Q-обучение может расходиться при работе с приближениями, однако, если вы все еще хотите его использовать, вы можете попробовать объединить его с самоорганизующейся картой, как это сделано в "применение самоорганизующейся карты для обучения подкреплению". В документе также содержатся некоторые дополнительные ссылки, которые могут оказаться полезными.


перенесемся в этом году, люди из DeepMind предлагает глубокое подкрепление обучения актера-критика метод для работы с и непрерывное состояние и пространство действий. Он основан на методе, называемом детерминированным градиентом политики. См. В статье непрерывный контроль с глубоким обучением подкрепления и реализации.


существует множество способов расширения обучения подкреплению до непрерывных действий. Один из способов - использовать актерско-критические методы. Другой способ - использовать методы градиента политики.

довольно обширное объяснение различных методов можно найти в следующей статье, которая доступна в интернете: усиление обучения в непрерывном состоянии и пространства действий


для того, что вы делаете, я не считаю, что вам нужно работать в непрерывных пространствах действий. Хотя физическая мышь перемещается в непрерывном пространстве, внутренне курсор перемещается только дискретными шагами (обычно на уровнях пикселей), поэтому получение любой точности выше этого порога, похоже, не повлияет на производительность вашего агента. Пространство состояний все еще довольно велико, но оно конечное и дискретное.


Я знаю, что этот пост несколько стар, но в 2016 году был предложен вариант Q-обучения, применяемый к непрерывным пространствам действий, в качестве альтернативы методам актера-критика. Он называется нормализованными функциями преимуществ (NAF). Вот бумага: непрерывное глубокое Q-обучение с модельным ускорением