我看到过这样的话:
在给定时间内,策略定义了学习代理的行为方式。粗略地说,策略是从环境感知状态到在那些状态下采取的行动的映射。
但仍然不完全理解,在强化学习中,策略到底是什么?
我看到过这样的话:
在给定时间内,策略定义了学习代理的行为方式。粗略地说,策略是从环境感知状态到在那些状态下采取的行动的映射。
但仍然不完全理解,在强化学习中,策略到底是什么?
S
,A
,P
,R
,y
),其中:
S
是有限状态集合A
是有限行动集合P
是状态转移概率矩阵(每个当前状态和每个动作结束时进入状态的概率)R
是奖励函数,给定一个状态和一个动作y
是折扣因子,介于0和1之间然后,策略 π
是在给定状态下行动的概率分布。也就是说,当代理处于特定状态时,每个动作的可能性(当然,我这里省略了很多细节)。这个定义对应于您定义的第二部分。
我强烈推荐在YouTube上观看David Silver的RL课程。前两节课特别关注MDPs和策略。
π
是一个函数,它以状态 s
作为输入,并返回一个动作 a
。 即: π(s) → a
通常情况下,代理程序会使用该策略来决定当处于给定状态 s
时应执行什么动作 a
。a
。下面是简洁明了的回答:政策是智能体的“思考方式”。它是某个状态 s
下,智能体现在应该采取哪个动作 a
的映射。您可以将政策视为查找表:
state----action----probability/'goodness' of taking the action
1 1 0.6
1 2 0.4
2 1 0.3
2 2 0.7
如果你处于状态1,你会选择行动1(假设采用贪心策略)。如果你处于状态2,你会选择行动2。