我对MCTS的“树策略”实现方式有点困惑。我读到的每篇论文或文章都谈到从当前游戏状态(在MCTS术语中:即将进行移动的玩家的根节点)向下遍历树。我的问题是,当我处于MIN玩家级别时(假设我是MAX玩家),如何选择最佳子节点。即使我选择了一些可能由MIN采取的特定操作,并且我的搜索树通过该节点变得更深,但在其回合期间,MIN玩家可能会选择一些不同的节点。(如果MIN玩家是业余人士,则可能会选择一些不一定是最佳的节点)。这使得MAX在传播通过该节点的信息方面所做的整个工作变得无效,因为MIN已经选择了另一个节点。
我所指的步骤如下:
https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/
其中树策略:https://jeffbradberry.com/images/mcts_selection.png
让我相信他们是从单个玩家的角度执行它。