得票数最多 'sarsa' 问题

关联标签

146得票8回答

虽然我知道SARSA是on-policy算法，而Q-learning是off-policy算法，但是当我看它们的公式时，很难（对我来说）看出这两个算法之间的任何区别。根据书籍Reinforcement Learning: An Introduction（作者为Sutton和Barto），在...

17得票1回答

我正在查看这个SARSA-Lambda实现（即带有资格迹的SARSA），但仍有一个细节我不太明白。（图片来源于http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html）所以我理解所有的Q(s,a)都会被更新，而不仅仅是...

11得票3回答

Q-learning和SARSA之间的区别在于，Q-learning比较当前状态和最佳下一个状态，而SARSA将当前状态与实际下一个状态进行比较。如果使用贪心选择策略，即始终选择具有最高动作值的动作，则SARSA和Q-learning是否相同？