什么是强化学习中的策略?

47

我看到过这样的话:

在给定时间内,策略定义了学习代理的行为方式。粗略地说,策略是从环境感知状态到在那些状态下采取的行动的映射。

但仍然不完全理解,在强化学习中,策略到底是什么?

3个回答

78
定义是正确的,尽管如果您第一次看到它可能不会立即明显。让我这样说:策略是代理的策略
例如,想象一个世界,一个机器人在房间里移动,任务是到达目标点(x,y),在那里它获得奖励。在这里:
- 房间是环境 - 机器人的当前位置是状态 - 策略是代理完成此任务所做的事情: - 愚蠢的机器人只是随机地四处漫游,直到它们意外地到达正确的位置(策略#1) - 其他人可能出于某种原因学会了沿着大部分路线走墙(策略#2) - 聪明的机器人在“头脑”中规划路线并直接前往目标(策略#3)
显然,有些策略比其他策略更好,并且有多种评估它们的方法,即状态价值函数动作价值函数。 RL的目标是学习最佳策略。现在定义应该更有意义(请注意,在上下文中,时间最好被理解为状态): 策略定义了学习代理在给定时间的行为方式。

正式

更正式地说,我们应该首先将马尔可夫决策过程(MDP)定义为元组(SAPRy),其中:
  • S是有限状态集合
  • A是有限行动集合
  • P是状态转移概率矩阵(每个当前状态和每个动作结束时进入状态的概率)
  • R是奖励函数,给定一个状态和一个动作
  • y是折扣因子,介于0和1之间

然后,策略 π 是在给定状态下行动的概率分布。也就是说,当代理处于特定状态时,每个动作的可能性(当然,我这里省略了很多细节)。这个定义对应于您定义的第二部分。

我强烈推荐在YouTube上观看David Silver的RL课程。前两节课特别关注MDPs和策略。


29
简单来说,最简单的情况下,策略 π 是一个函数,它以状态 s 作为输入,并返回一个动作 a。 即: π(s) → a 通常情况下,代理程序会使用该策略来决定当处于给定状态 s 时应执行什么动作 a
有时,策略可能是随机的而不是确定的。 在这种情况下,策略返回一组动作的概率分布,而不是唯一的动作 a
一般来说,任何强化学习算法的目标都是学习一个优化的策略,以实现特定的目标。

16

下面是简洁明了的回答:政策是智能体的“思考方式”。它是某个状态 s 下,智能体现在应该采取哪个动作 a 的映射。您可以将政策视为查找表:

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7
如果你处于状态1,你会选择行动1(假设采用贪心策略)。如果你处于状态2,你会选择行动2。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接