我读过的所有强化学习算法通常都应用于一个具有固定行动数量的单个代理。是否有任何强化学习算法可以考虑变量数量的行动来做出决策?例如,在玩家控制N名士兵且每个士兵根据其状态具有随机数量的行动的计算机游戏中,如何应用强化学习算法?你无法为全局决策制定固定数量的行动(即“将军”),因为可用行动会随着士兵的创建和死亡而不断改变。而在士兵层面上也无法制定固定数量的行动,因为士兵的行动是基于其直接环境而有条件的。如果士兵看不到对手,则可能只能行走,而如果它看到10个对手,则会有10个新的可能行动,攻击其中1个对手。