在开始时,游戏的胜利/失败位置仅在rollout中找到,我知道如何对其进行评分并将其传播回树上。但是随着游戏的进行,我最终会发现一个叶节点,由UCB1选择的,无法扩展,因为它是一个输掉的位置,没有可能的移动,因此没有任何可以扩展的内容,也没有游戏可供“rollout”。目前,我只将其评分为剩余玩家的“胜利”,并向其传播胜利。
然而,当我查看访问统计数据时,这个节点被重新访问了数千次,显然UCB1选择多次访问此节点,但实际上这有点浪费,我应该向这些“总是赢”的节点反向传播除了单个胜利之外的东西吗?
我已经通过谷歌搜索了很多,但并没有找到太多相关信息,所以我是否有什么误解或遗漏了一些明显的内容?标准的MCTS教程/算法甚至没有提到树中的游戏结束节点作为特殊情况,所以我担心自己可能误解了一些基本的东西。