得票数最多 'temporal-difference' 问题

关联标签

23得票1回答

我正在大学上一门名为“智能机器”的课程。我们被介绍了三种强化学习方法，并且给出了何时使用它们的直觉，我引用如下： Q-Learning - 最适用于无法解决MDP的情况。时序差分学习 - 当MDP已知或可以学习但无法解决时最好。基于模型的学习 - 最适用于无法学习MDP的情况。 ...

14得票1回答

我正在尝试实现Gerald Tesauro的TD-Gammon文章中的算法。学习算法的核心在下面这段话中描述：我决定只有一个隐藏层（如果这足以在1990年代初打世界级的双陆棋，那么对我来说也足够了）。我相当确定除了train()函数之外的所有内容都是正确的（它们更容易测试），但我不...

9得票3回答

我正在学习来自这篇文章的时间差异学习。我理解了TD(0)的更新规则，但在TD(λ)中，我不明白如何在单个更新中更新所有先前状态的效用值。下面是用于比较两种更新的图示：上面的图表解释如下：在TD(λ)中，由于资格痕迹，结果会向所有以前的状态传播。我的问题是，即使我们使用具有资...