在强化学习中,“策略迭代”和“值迭代”有什么区别?
据我所知,在值迭代中,您使用贝尔曼方程求解最优策略,而在策略迭代中,您随机选择一个策略π,并找到该策略的奖励。
我的疑问是,如果在策略迭代中选择了随机策略π,即使我们选择了多个随机策略,它如何保证是最优策略?
据我所知,在值迭代中,您使用贝尔曼方程求解最优策略,而在策略迭代中,您随机选择一个策略π,并找到该策略的奖励。
我的疑问是,如果在策略迭代中选择了随机策略π,即使我们选择了多个随机策略,它如何保证是最优策略?
让我们并排看一下它们。高亮显示了比较的关键部分。这些数字来自Sutton和Barto的书:强化学习导论。
根据我的经验,策略迭代比价值迭代更快,因为策略收敛比价值函数更快。我记得这也在书中有描述。
我想混淆主要来自这些有些相似的术语,这也在之前让我感到困惑。