146得票8回答
Q学习和SARSA有何区别?

虽然我知道SARSA是on-policy算法,而Q-learning是off-policy算法,但是当我看它们的公式时,很难(对我来说)看出这两个算法之间的任何区别。 根据书籍Reinforcement Learning: An Introduction(作者为Sutton和Barto),在...

17得票1回答
在SARSA-Lambda实现中,资格迹在每个回合之间重新初始化的问题

我正在查看这个SARSA-Lambda实现(即带有资格迹的SARSA),但仍有一个细节我不太明白。 (图片来源于http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) 所以我理解所有的Q(s,a)都会被更新,而不仅仅是...

11得票3回答
Q学习和SARSA在贪婪选择方面是否等效?

Q-learning和SARSA之间的区别在于,Q-learning比较当前状态和最佳下一个状态,而SARSA将当前状态与实际下一个状态进行比较。 如果使用贪心选择策略,即始终选择具有最高动作值的动作,则SARSA和Q-learning是否相同?