148得票7回答
如何使用视觉输入训练人工神经网络玩Diablo 2?

我目前正在尝试让人工神经网络玩一个视频游戏,并希望从这里美妙的社区中获得一些帮助。 我选择了《暗黑破坏神2》。游戏是实时的,以等距视角进行游戏,玩家控制一个单一的角色,摄像机以其为中心。 为了使事情具体化,任务是让您的角色获得x点经验值,而不使其健康值降至0,其中通过杀死怪物获得经验点。以...

146得票8回答
Q学习和SARSA有何区别?

虽然我知道SARSA是on-policy算法,而Q-learning是off-policy算法,但是当我看它们的公式时,很难(对我来说)看出这两个算法之间的任何区别。 根据书籍Reinforcement Learning: An Introduction(作者为Sutton和Barto),在...

141得票5回答
价值迭代和策略迭代有什么区别?

在强化学习中,“策略迭代”和“值迭代”有什么区别? 据我所知,在值迭代中,您使用贝尔曼方程求解最优策略,而在策略迭代中,您随机选择一个策略π,并找到该策略的奖励。 我的疑问是,如果在策略迭代中选择了随机策略π,即使我们选择了多个随机策略,它如何保证是最优策略?

68得票2回答
使用强化学习来训练神经网络

我了解前馈神经网络的基础知识以及如何使用反向传播算法进行训练,但我正在寻找一种可以使用强化学习在线训练ANN的算法。 例如,cart pole swing up问题是我想用ANN解决的问题。在这种情况下,我不知道应该如何控制摆杆,我只知道我离理想位置有多远。我需要让ANN根据奖励和惩罚来学习...

56得票4回答
如何理解强化学习中的近端策略优化算法(Proximal Policy Optimization Algorithm)?

我知道强化学习的基础知识,但是为了能够阅读arxiv PPO paper,需要理解哪些术语? 学习和使用PPO的路线图是什么?

51得票6回答
我该如何将强化学习应用于连续动作空间?

我正在尝试让一个代理学习在强化学习环境下最佳执行某些任务所需的鼠标移动方式(即奖励信号是学习的唯一反馈)。 我希望使用Q学习技术,但虽然我已经找到了将此方法扩展到连续状态空间的方法,但似乎无法解决连续动作空间的问题。 我可以强制所有鼠标移动都具有一定的大小和方向,但任何合理的使动作离散化的...

47得票3回答
什么是强化学习中的策略?

我看到过这样的话: 在给定时间内,策略定义了学习代理的行为方式。粗略地说,策略是从环境感知状态到在那些状态下采取的行动的映射。 但仍然不完全理解,在强化学习中,策略到底是什么?

41得票3回答
Q学习和价值迭代有什么区别?

Q-learning在强化学习中如何与值迭代不同? 我知道Q-learning是无模型的,训练样本是转换(s,a,s',r)。但既然我们知道Q-learning中每个转换的转移和奖励,那么它不就是一种基于模型的学习吗?其中我们知道了状态和动作对的奖励,以及从一个状态进行每个动作的转换(无论是...

38得票1回答
OpenAI Gym: 理解 `action_space` 表示法 (spaces.Box)

我想在OpenAI的CarRacing-v0环境中设置一个强化学习智能体,但在此之前我想了解一下动作空间。在github上的代码中第119行写道:self.action_space = spaces.Box( np.array([-1,0,0]), np.array([+1,+1,+1])) ...

35得票2回答
强化学习和深度强化学习有什么区别?

深度强化学习和强化学习有什么区别?我基本上知道强化学习是什么,但在这个背景下,具体术语“深度”代表什么意思?