得票数最多 'reinforcement-learning' 问题 - 第5页

关联标签

14得票2回答

类型错误：符号张量的长度未定义。(activation_3/Identity:0) 请调用 `x.shape` 而不是 `len(x)` 获取形状信息。

我正在尝试在OpenAI gym的一个游戏上实现DQL模型。但是它给了我以下错误。 TypeError: 对于符号张量，len未定义。 (activation_3/Identity:0) 请调用 x.shape 而不是 len(x) 获取形状信息。创建gym环境：ENV_...

pythontensorflowkerasreinforcement-learningkeras-rl

13得票1回答

演员评论策略损失将降至零（没有改进）

我创建了一个演员评论家模型来测试一些OpenAI gym环境。然而，在某些环境中，我遇到了问题。 CartPole: 该模型最终会收敛并获得最大奖励。然而，由于某种原因，如果我只使用策略梯度方法而不是值函数/优势，它会更快地收敛。 MountainCar、Acrobot: 这两个模型具有负...

pythontensorflowkerasreinforcement-learning

13得票1回答

为什么我的DQN智能体无法在非确定性环境中找到最优策略？

编辑：以下内容似乎也适用于FrozenLake-v0。请注意，我对简单的Q-learning不感兴趣，因为我想看到适用于连续观测空间的解决方案。最近我创建了banana_gym OpenAI环境。情景如下：你有一根香蕉。它必须在两天内出售，因为第三天会变坏。你可以选择价格x，但香蕉只有...

pythonoptimizationreinforcement-learningopenai-gymkeras-rl

13得票1回答

如何在强化学习程序中使用Tensorflow优化器而无需重新计算激活函数？该程序在每次迭代后返回控制权。

编辑（1/3/16）：相应的github问题我正在使用Tensorflow（Python界面）来实现使用随机梯度下降训练的函数逼近的q-learning代理。在实验的每个迭代中，代理中的步骤函数被调用，该函数根据新的奖励和激活更新逼近器的参数，然后选择执行新动作。以下是问题（使用强...

pythontensorflowmachine-learningreinforcement-learningq-learning

13得票5回答

进化计算能成为强化学习的一种方法吗？

什么是进化计算？它是一种强化学习方法吗？还是一种独立的机器学习方法？或者可能都不是？请引用回答这个问题所使用的参考资料。

machine-learningartificial-intelligencereinforcement-learningevolutionary-algorithm

13得票6回答

Pytorch 运行时错误：张量的第 0 个元素不需要梯度也没有梯度函数。

这段代码的流程如下：我的机器人拍摄一张照片，一些tf计算机视觉模型会计算目标物体在照片中的起始位置。这些信息（x1和x2坐标）传递给一个pytorch模型。该模型应该学习预测正确的电机激活，以便更接近目标。执行移动后，机器人再次拍照，tf计算机视觉模型应该计算出电机激活是否将机器人带到了期望状...

pythondeep-learningpytorchgradientreinforcement-learning

12得票2回答