我正在尝试使用Java从头开始制作一个学习足球游戏,并尝试使用Google DeepMind的Deep Q-learning算法(没有卷积网络)来实现强化学习。我已经构建了神经网络和Q-learning,现在我正在尝试将它们结合起来,但是在这段代码中有一些我不理解的地方。 Q值通常不是用随机值而是用零初始化的吗?或者这是否意味着神经网络的权重(第2行) 什么是 预处理的序列化Φ1 = Φ(s1)(第4行) 我只是无法弄清楚在这个算法中Φ代表什么。
它指的是神经网络的权重。 Φ(s)指的是预处理映射/步骤,Φ是Φ(s1)的简称。每个帧都是210x160像素x 128种颜色。在论文中使用了一些预处理方法。他们消除了闪烁,只使用亮度,重新缩放和堆叠。请参阅2015年论文中的“方法”部分。