得票数最多 'value-iteration' 问题

关联标签

141得票5回答

在强化学习中，“策略迭代”和“值迭代”有什么区别？据我所知，在值迭代中，您使用贝尔曼方程求解最优策略，而在策略迭代中，您随机选择一个策略π，并找到该策略的奖励。我的疑问是，如果在策略迭代中选择了随机策略π，即使我们选择了多个随机策略，它如何保证是最优策略？