23得票1回答
Q学习 vs 时间差分 vs 基于模型的强化学习

我正在大学上一门名为“智能机器”的课程。 我们被介绍了三种强化学习方法,并且给出了何时使用它们的直觉,我引用如下: Q-Learning - 最适用于无法解决MDP的情况。 时序差分学习 - 当MDP已知或可以学习但无法解决时最好。 基于模型的学习 - 最适用于无法学习MDP的情况。 ...

14得票1回答
实现TD-Gammon算法

我正在尝试实现Gerald Tesauro的TD-Gammon文章中的算法。学习算法的核心在下面这段话中描述: 我决定只有一个隐藏层(如果这足以在1990年代初打世界级的双陆棋,那么对我来说也足够了)。我相当确定除了train()函数之外的所有内容都是正确的(它们更容易测试),但我不...

9得票3回答
被困在理解TD(0)和TD(λ)更新用途之间的区别中。

我正在学习来自这篇文章的时间差异学习。我理解了TD(0)的更新规则,但在TD(λ)中,我不明白如何在单个更新中更新所有先前状态的效用值。 下面是用于比较两种更新的图示: 上面的图表解释如下: 在TD(λ)中,由于资格痕迹,结果会向所有以前的状态传播。 我的问题是,即使我们使用具有资...