OpenAI Gym: понимание обозначения "пространство действий"(пространства.Коробка)

Я хочу настроить агент RL на OpenAI CarRacing-v0 окружение, но до этого я хочу понять пространство действий. В код на github строка 119 говорит:

self.action_space = spaces.Box( np.array([-1,0,0]), np.array([+1,+1,+1]))  # steer, gas, brake

как я могу прочитать эту строку? Хотя моя проблема конкретная wrt CarRacing-v0 Я хотел бы понять spaces.Box() обозначение вообще

1 ответов


Box означает, что вы имеете дело с реальной стоимостью количествах.

первый массив np.array([-1,0,0] являются самыми низкими принятыми значениями, А второе np.array([+1,+1,+1]) самые высокие допустимые значения. В этом случае (используя комментарий) мы видим, что у нас есть 3 действия:

  1. руля: в реальном масштабе оценивается в [-1, 1]
  2. газ: в реальном масштабе оценивается в [0, 1]
  3. перерыв: реальной стоимостью в [0, 1]