如何处理蒙特卡罗树搜索中的终端节点?

3
当我的树已经深入到开始选择终端节点时,我原以为应该只需从中执行零步“playout”,然后向后传播结果,但是 MCTS方法的IEEE调查表明选择步骤应该找到“最紧急可扩展节点”,我找不到其他反例。我应该以某种方式将它们排除在外吗?在这里应该做什么?
1个回答

4
如果在选择阶段实际到达了一个终端节点,你就可以跳过扩展和模拟(它们不再有意义),直接回溯该终端节点的值。
从你提供的论文中我们可以看到在第6页上并没有明确这一点,但在第9页的算法2中已经明确说明。在那个伪代码中,TreePolicy()函数最终会返回一个终端节点v。当该节点的状态被传递给DefaultPolicy()函数时,该函数将直接返回奖励值(该函数while循环的条件永远不会被满足)。
如果您对该算法有很好的直觉理解,并希望能够在无限处理时间的情况下保证最优估计值,那么这也是符合常理的。对于无限的处理时间(无限数量的模拟),您将想要无限次备份来自“最佳”终端状态的价值,以便根节点更接近的节点中的平均备份值也会在极限情况下收敛到那些最佳叶节点的值。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接