资格痕迹：在线与离线λ回报算法

Question

资格痕迹：在线与离线λ回报算法

lambdareturnofflinereinforcement-learningonline-algorithm

3

我有一些疑惑，不太明白为什么在线版本的λ-return算法需要在每次时间步长中都重新访问一个回合上所有时间步骤。这个问题来自以下书籍的第12章《强化学习导论》（第2版）作者是 Sutton & Barto：
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

Horizon step-by-step expansion

图中，每个时域 h 的权重向量序列 W1、W2、......、Wh 都从前一个回合结束时的权重 W0 开始。但它们似乎不依赖于先前时域的回报/权重，并且可以独立计算。这对我来说似乎只是为了澄清而解释，您只需在回合终止时为最终时域 h=T 计算即可。这与离线版本算法所做的相同，实际更新规则如下：

General weight-vector update formula

毫不奇怪，在19状态随机行走示例上，两种算法给出了完全相同的结果：

书中提到，在线版本应该表现得更好，并且在这种情况下应该与 True Online TD(λ) 的结果相同。但是，在实现后者时，其性能真的比离线版本要好得多，但是我无法想象简单而缓慢的在线版本为什么能做到这一点。

非常感谢您的建议。

- xenomeno

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Philip Raeisghasem · Accepted Answer

我觉得这个解释只是为了澄清，并且你只能在每轮结束时的最终时间点h=T计算它们，这是不正确的。

实际上，在线λ返回算法的整个意义就在于它是在线的：它在每个轮次中进行更新。这在控制环境中非常重要，因为所选的动作是由当前值估计决定的。即使在预测环境中，早期视角的权重更新也会产生影响。

这是因为最后一个视角的最终权重向量始终用于计算更新目标——截断λ返回。因此，w_1^1用于计算所有h=2的目标，w_2^2用于计算所有h=3的目标。由于目标是使用最新的权重向量计算的，它们通常更准确。

即使在预测环境中，在线λ返回算法的表现也优于离线版本，因为它使用的目标更好。