我正在尝试让一个代理学习在强化学习环境下最佳执行某些任务所需的鼠标移动方式(即奖励信号是学习的唯一反馈)。
我希望使用Q学习技术,但虽然我已经找到了将此方法扩展到连续状态空间的方法,但似乎无法解决连续动作空间的问题。
我可以强制所有鼠标移动都具有一定的大小和方向,但任何合理的使动作离散化的方法都会产生巨大的动作空间。由于标准的Q学习要求代理评估所有可能的动作,因此这种近似并不能在实际意义上解决问题。
我希望使用Q学习技术,但虽然我已经找到了将此方法扩展到连续状态空间的方法,但似乎无法解决连续动作空间的问题。
我可以强制所有鼠标移动都具有一定的大小和方向,但任何合理的使动作离散化的方法都会产生巨大的动作空间。由于标准的Q学习要求代理评估所有可能的动作,因此这种近似并不能在实际意义上解决问题。