观测意义-OpenAI Gym

9
我想了解在OpenAI Gym(https://gym.openai.com/)中观察CartPole-v0的规格说明。
例如,在以下代码输出中,observation如下:[-0.061586 -0.75893141 0.05793238 1.15547541],我想知道这些数字的含义。我还想知道其他Environments(如MountainCar-v0MsPacman-v0等)的规格说明的任何方法。
我尝试阅读https://github.com/openai/gym,但我不知道该怎么做。你能告诉我如何了解规格说明吗?
import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

(来自https://gym.openai.com/docs)

输出如下

[-0.061586   -0.75893141  0.05793238  1.15547541]
[-0.07676463 -0.95475889  0.08104189  1.46574644]
[-0.0958598  -1.15077434  0.11035682  1.78260485]
[-0.11887529 -0.95705275  0.14600892  1.5261692 ]
[-0.13801635 -0.7639636   0.1765323   1.28239155]
[-0.15329562 -0.57147373  0.20218013  1.04977545]
Episode finished after 14 timesteps
[-0.02786724  0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191  0.26388759]
[-0.03161324  0.00474768 -0.03443415 -0.04105167]

我认为这是该类 https://github.com/openai/gym/blob/master/gym/envs/classic_control/cartpole.py - fafl
2个回答

9
OpenAI Gym中使用的观察空间与原论文并不完全相同。请查看OpenAI的wiki以获取答案。观察空间是一个4维空间,每个维度如下所示:
Num 观察值 最小值 最大值 0 小车位置 -2.4 2.4 1 小车速度 -Inf Inf 2 杆角度 ~ -41.8° ~ 41.8° 3 杆顶速度 -Inf Inf

4
在OpenAI Gym网站描述每个环境的段落之后,您总是会找到一份详细解释环境的参考资料。例如,在CartPole-v0的情况下,您可以在以下位置找到所有详细信息:CartPole-v0
在那篇论文中,您可以阅读到小车杆具有四个状态变量:
1. 小车在轨道上的位置 2. 杆与竖直方向的角度 3. 小车速度 4. 角度变化率
因此,observation只是一个带有四个状态变量值的向量。
类似地,您可以在以下位置找到MountainCar-v0的详细信息:

[Moore90] A Moore, Efficient Memory-Based Learning for Robot Control, PhD thesis, University of Cambridge, 1990.

等等。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接