为什么强化学习被称为“reinforcement（强化）”学习？

Question

为什么强化学习被称为“reinforcement（强化）”学习？

machine-learningdeep-learningreinforcement-learning

5

我理解为什么机器学习会被称为“机器学习”，以及监督学习和无监督学习背后的术语。那么强化学习有何特殊之处呢？

- user9856153

3个回答

1

现代强化学习建立在两个主要线索上。一条线索涉及通过试错学习，起源于动物学习的心理学。第二条线索涉及最优控制问题，它是使用价值函数和动态规划的解决方案（Sutton和Barto，2018）。强化学习从研究的第一条线索借来了名字。根据Watkins（1989）的说法，在研究动物的学习能力时，动物可能会自动获得强化器。行为学上，正向强化器对于饥饿的动物可以是一小块食物，对于口渴的动物可以是一口水。相反，负向强化器可能是电击。注：Watkins提出了Q-learning算法。编辑：（添加更多历史）

根据Sutton和Barto（2018）的说法：“在动物学习的背景下，术语“强化”在索恩戴克（Thorndike）表达效应定律之后才开始使用。据我们所知，它首次出现在帕夫洛夫有关条件反射的专著的1927年英文译本中。帕夫洛夫将强化描述为由于动物接收到一个刺激 - 强化剂与另一个刺激或响应适当的时间关系而导致行为模式的增强。”

Sutton，Richard S.，和Andrew G.Barto。《强化学习：一种介绍》。MIT出版社，2018年。
Thorndike，E.L.《动物智能》。Hafner，Darien，CT，1911年。
Watkins，Christopher John Cornish Hellaby。"从延迟奖励中学习。"（1989）。

- Naeem Khoshnevis

0

强化学习通过试错得到加强。不正确（或次优）的结果不需要手动更正。相反，重点是探索，并从这些相同的经验中获得反馈（强化）。

- Bashman

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- R.F. Nelson · Accepted Answer

“强化”在强化学习中指的是如何鼓励某些行为并阻止其他行为。行为通过在环境中获得奖励来得到强化。