为什么强化学习被称为“reinforcement(强化)”学习?

5

我理解为什么机器学习会被称为“机器学习”,以及监督学习和无监督学习背后的术语。那么强化学习有何特殊之处呢?

3个回答

5
“强化”在强化学习中指的是如何鼓励某些行为并阻止其他行为。行为通过在环境中获得奖励来得到强化。

1
现代强化学习建立在两个主要线索上。一条线索涉及通过试错学习,起源于动物学习的心理学。第二条线索涉及最优控制问题,它是使用价值函数和动态规划的解决方案(Sutton和Barto,2018)。 强化学习从研究的第一条线索借来了名字。根据Watkins(1989)的说法,在研究动物的学习能力时,动物可能会自动获得强化器。行为学上,正向强化器对于饥饿的动物可以是一小块食物,对于口渴的动物可以是一口水。相反,负向强化器可能是电击。 注:Watkins提出了Q-learning算法。 编辑:(添加更多历史)
根据Sutton和Barto(2018)的说法:“在动物学习的背景下,术语“强化”在索恩戴克(Thorndike)表达效应定律之后才开始使用。据我们所知,它首次出现在帕夫洛夫有关条件反射的专著的1927年英文译本中。帕夫洛夫将强化描述为由于动物接收到一个刺激 - 强化剂与另一个刺激或响应适当的时间关系而导致行为模式的增强。”
Sutton,Richard S.,和Andrew G.Barto。《强化学习:一种介绍》。MIT出版社,2018年。
Thorndike,E.L.《动物智能》。Hafner,Darien,CT,1911年。
Watkins,Christopher John Cornish Hellaby。"从延迟奖励中学习。"(1989)。

0
强化学习通过试错得到加强。不正确(或次优)的结果不需要手动更正。相反,重点是探索,并从这些相同的经验中获得反馈(强化)。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接