什么是强化学习中的策略？

Question

什么是强化学习中的策略？

machine-learningterminologyreinforcement-learningmarkov-decision-process

47

我看到过这样的话：

在给定时间内，策略定义了学习代理的行为方式。粗略地说，策略是从环境感知状态到在那些状态下采取的行动的映射。

但仍然不完全理解，在强化学习中，策略到底是什么？

- Alexander Cyberman

3个回答

29

简单来说，最简单的情况下，策略 π 是一个函数，它以状态 s 作为输入，并返回一个动作 a。即： π(s) → a 通常情况下，代理程序会使用该策略来决定当处于给定状态 s 时应执行什么动作 a。

有时，策略可能是随机的而不是确定的。在这种情况下，策略返回一组动作的概率分布，而不是唯一的动作 a。

一般来说，任何强化学习算法的目标都是学习一个优化的策略，以实现特定的目标。

- Pablo EM

16

下面是简洁明了的回答：政策是智能体的“思考方式”。它是某个状态 s 下，智能体现在应该采取哪个动作 a 的映射。您可以将政策视为查找表：

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7

如果你处于状态1，你会选择行动1（假设采用贪心策略）。如果你处于状态2，你会选择行动2。

- Martin Dinov

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Maxim · Accepted Answer

定义是正确的，尽管如果您第一次看到它可能不会立即明显。让我这样说：策略是代理的策略。

例如，想象一个世界，一个机器人在房间里移动，任务是到达目标点（x，y），在那里它获得奖励。在这里：

- 房间是环境 - 机器人的当前位置是状态 - 策略是代理完成此任务所做的事情： - 愚蠢的机器人只是随机地四处漫游，直到它们意外地到达正确的位置（策略＃1） - 其他人可能出于某种原因学会了沿着大部分路线走墙（策略＃2） - 聪明的机器人在“头脑”中规划路线并直接前往目标（策略＃3）

显然，有些策略比其他策略更好，并且有多种评估它们的方法，即状态价值函数和动作价值函数。 RL的目标是学习最佳策略。现在定义应该更有意义（请注意，在上下文中，时间最好被理解为状态）： 策略定义了学习代理在给定时间的行为方式。

正式

更正式地说，我们应该首先将马尔可夫决策过程（MDP）定义为元组（S，A，P，R，y），其中：

S是有限状态集合
A是有限行动集合
P是状态转移概率矩阵（每个当前状态和每个动作结束时进入状态的概率）
R是奖励函数，给定一个状态和一个动作
y是折扣因子，介于0和1之间

然后，策略 π 是在给定状态下行动的概率分布。也就是说，当代理处于特定状态时，每个动作的可能性（当然，我这里省略了很多细节）。这个定义对应于您定义的第二部分。

我强烈推荐在YouTube上观看David Silver的RL课程。前两节课特别关注MDPs和策略。