得票数最多 'q-learning' 问题

关联标签

146得票8回答

虽然我知道SARSA是on-policy算法，而Q-learning是off-policy算法，但是当我看它们的公式时，很难（对我来说）看出这两个算法之间的任何区别。根据书籍Reinforcement Learning: An Introduction（作者为Sutton和Barto），在...

51得票6回答

我正在尝试让一个代理学习在强化学习环境下最佳执行某些任务所需的鼠标移动方式（即奖励信号是学习的唯一反馈）。我希望使用Q学习技术，但虽然我已经找到了将此方法扩展到连续状态空间的方法，但似乎无法解决连续动作空间的问题。我可以强制所有鼠标移动都具有一定的大小和方向，但任何合理的使动作离散化的...

41得票3回答

Q-learning在强化学习中如何与值迭代不同？我知道Q-learning是无模型的，训练样本是转换(s，a，s'，r)。但既然我们知道Q-learning中每个转换的转移和奖励，那么它不就是一种基于模型的学习吗？其中我们知道了状态和动作对的奖励，以及从一个状态进行每个动作的转换（无论是...

35得票2回答

深度强化学习和强化学习有什么区别？我基本上知道强化学习是什么，但在这个背景下，具体术语“深度”代表什么意思？

23得票2回答

我一直在尝试使用“深度Q学习”构建模型，其中有大量的行动（2908）。在使用标准DQN（https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf）获得有限的成功之后，我决定进行更多研究，因为我认为行动空间太大而无法有效地探索。然后我发现了这篇论文：htt...

23得票1回答

我正在大学上一门名为“智能机器”的课程。我们被介绍了三种强化学习方法，并且给出了何时使用它们的直觉，我引用如下： Q-Learning - 最适用于无法解决MDP的情况。时序差分学习 - 当MDP已知或可以学习但无法解决时最好。基于模型的学习 - 最适用于无法学习MDP的情况。 ...

22得票2回答

ϵ-贪心策略我知道Q学习算法应该在探索和利用之间取得平衡。由于我是这个领域的新手，所以我想实现一个简单版本的探索/利用行为。最佳ϵ值我的实现使用了ϵ-贪心策略，但是当决定epsilon值时我很困惑。epsilon是否应该受到算法访问给定（状态，动作）对的次数的限制，或者应该受到执行...

22得票2回答

我正在使用DQN算法在一个汽车控制环境中训练智能体，具体如下：智能体通过选择离散动作(向左、向右、向上、向下)来驾驶汽车目标是以期望速度行驶而不撞上其他汽车状态包括智能体汽车和周围汽车的速度和位置奖励：撞上其他车辆为-100分，相对期望速度的绝对差距越小得到的正奖励越多（如果以期望...

20得票3回答

我试图熟悉Q学习和深度神经网络，目前正尝试实现使用深度强化学习玩雅达利游戏。为了测试我的实现并尝试一些小实验，我想尝试一个简单的网格世界。在这个世界里，有一个NxN的网格，在左上角开始，在右下角结束。可能的行动是：左、上、右、下。尽管我的实现已经非常类似于这个(希望它是好的)，但它似乎...

18得票3回答

我了解epsilon标记控制着探索与开发之间的权衡。在开始时，希望epsilon值高，这样可以大步跨进并学习新事物。随着对未来回报的了解，epsilon应该逐渐减小，这样可以利用您发现的更高Q值。然而，在随机环境下，我们的学习率是否也会随时间而减小？我看到的SO帖子只讨论epsilon的衰...