OpenAI Gym: понимание обозначения "пространство действий"(пространства.Коробка)
Я хочу настроить агент RL на OpenAI CarRacing-v0 окружение, но до этого я хочу понять пространство действий. В код на github строка 119 говорит:
self.action_space = spaces.Box( np.array([-1,0,0]), np.array([+1,+1,+1])) # steer, gas, brake
как я могу прочитать эту строку? Хотя моя проблема конкретная wrt CarRacing-v0 Я хотел бы понять spaces.Box() обозначение вообще
1 ответов
Box означает, что вы имеете дело с реальной стоимостью количествах.
первый массив np.array([-1,0,0] являются самыми низкими принятыми значениями, А второе np.array([+1,+1,+1]) самые высокие допустимые значения. В этом случае (используя комментарий) мы видим, что у нас есть 3 действия:
-
руля: в реальном масштабе оценивается в
[-1, 1] -
газ: в реальном масштабе оценивается в
[0, 1] -
перерыв: реальной стоимостью в
[0, 1]