141得票5回答
价值迭代和策略迭代有什么区别?

在强化学习中,“策略迭代”和“值迭代”有什么区别? 据我所知,在值迭代中,您使用贝尔曼方程求解最优策略,而在策略迭代中,您随机选择一个策略π,并找到该策略的奖励。 我的疑问是,如果在策略迭代中选择了随机策略π,即使我们选择了多个随机策略,它如何保证是最优策略?