现代强化学习建立在两个主要线索上。一条线索涉及通过试错学习,起源于动物学习的心理学。第二条线索涉及最优控制问题,它是使用价值函数和动态规划的解决方案(Sutton和Barto,2018)。 强化学习从研究的第一条线索借来了名字。根据Watkins(1989)的说法,在研究动物的学习能力时,动物可能会自动获得强化器。行为学上,正向强化器对于饥饿的动物可以是一小块食物,对于口渴的动物可以是一口水。相反,负向强化器可能是电击。 注:Watkins提出了Q-learning算法。 编辑:(添加更多历史)根据Sutton和Barto(2018)的说法:“在动物学习的背景下,术语“强化”在索恩戴克(Thorndike)表达效应定律之后才开始使用。据我们所知,它首次出现在帕夫洛夫有关条件反射的专著的1927年英文译本中。帕夫洛夫将强化描述为由于动物接收到一个刺激 - 强化剂与另一个刺激或响应适当的时间关系而导致行为模式的增强。”Sutton,Richard S.,和Andrew G.Barto。《强化学习:一种介绍》。MIT出版社,2018年。 Thorndike,E.L.《动物智能》。Hafner,Darien,CT,1911年。 Watkins,Christopher John Cornish Hellaby。"从延迟奖励中学习。"(1989)。