14得票2回答
类型错误:符号张量的长度未定义。(activation_3/Identity:0) 请调用 `x.shape` 而不是 `len(x)` 获取形状信息。

我正在尝试在OpenAI gym的一个游戏上实现DQL模型。但是它给了我以下错误。 TypeError: 对于符号张量,len未定义。 (activation_3/Identity:0) 请调用 x.shape 而不是 len(x) 获取形状信息。 创建gym环境:ENV_...

13得票1回答
演员评论策略损失将降至零(没有改进)

我创建了一个演员评论家模型来测试一些OpenAI gym环境。然而,在某些环境中,我遇到了问题。 CartPole: 该模型最终会收敛并获得最大奖励。然而,由于某种原因,如果我只使用策略梯度方法而不是值函数/优势,它会更快地收敛。 MountainCar、Acrobot: 这两个模型具有负...

13得票1回答
为什么我的DQN智能体无法在非确定性环境中找到最优策略?

编辑:以下内容似乎也适用于FrozenLake-v0。请注意,我对简单的Q-learning不感兴趣,因为我想看到适用于连续观测空间的解决方案。 最近我创建了banana_gym OpenAI环境。情景如下: 你有一根香蕉。它必须在两天内出售,因为第三天会变坏。你可以选择价格x,但香蕉只有...

13得票1回答
如何在强化学习程序中使用Tensorflow优化器而无需重新计算激活函数?该程序在每次迭代后返回控制权。

编辑(1/3/16):相应的github问题 我正在使用Tensorflow(Python界面)来实现使用随机梯度下降训练的函数逼近的q-learning代理。 在实验的每个迭代中,代理中的步骤函数被调用,该函数根据新的奖励和激活更新逼近器的参数,然后选择执行新动作。 以下是问题(使用强...

13得票5回答
进化计算能成为强化学习的一种方法吗?

什么是进化计算?它是一种强化学习方法吗?还是一种独立的机器学习方法?或者可能都不是? 请引用回答这个问题所使用的参考资料。

13得票6回答
Pytorch 运行时错误:张量的第 0 个元素不需要梯度也没有梯度函数。

这段代码的流程如下:我的机器人拍摄一张照片,一些tf计算机视觉模型会计算目标物体在照片中的起始位置。这些信息(x1和x2坐标)传递给一个pytorch模型。该模型应该学习预测正确的电机激活,以便更接近目标。执行移动后,机器人再次拍照,tf计算机视觉模型应该计算出电机激活是否将机器人带到了期望状...

12得票2回答
确定性策略梯度相对于随机策略梯度的优势是什么?

深度确定性策略梯度(DDPG)是强化学习中针对连续动作空间的最先进方法。它的核心算法是确定性策略梯度。 然而,经过阅读论文和听取讲座(http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/)后,我仍然...

12得票2回答
在Keras中仅训练神经网络的一个输出

我在Keras中有一个具有多个输出的网络,然而我的训练数据每次只提供一个输出的信息。 目前我的训练方法是对所涉及的输入进行预测,在更改我正在训练的特定输出的值,然后进行单批次更新。如果我没错的话,这与将所有输出的损失设置为零,除了我正在尝试训练的那个输出是相同的。 是否有更好的方法?我尝试...

12得票3回答
TensorFlow:为什么gather_nd是可微的?

我正在查看一个tensorflow网络,该网络实现了针对CartPole开源AI环境的强化学习。 该网络实现了一个策略梯度智能体的似然比方法。 问题是,策略损失是使用gather_nd操作定义的!在这里看: .... self.y = tf.nn.softmax(tf....

12得票9回答
强化学习、深度学习和深度强化学习有什么区别?

强化学习、深度学习和深度强化学习有什么区别?Q-learning是如何适用的?