什么是Deep Q-learning算法中的phi?

3

我正在尝试使用Java从头开始制作一个学习足球游戏,并尝试使用Google DeepMind的Deep Q-learning算法(没有卷积网络)来实现强化学习。我已经构建了神经网络和Q-learning,现在我正在尝试将它们结合起来,但是在这段代码中有一些我不理解的地方。

  1. Q值通常不是用随机值而是用零初始化的吗?或者这是否意味着神经网络的权重(第2行)
  2. 什么是

预处理的序列化Φ1 = Φ(s1)(第4行)

我只是无法弄清楚在这个算法中Φ代表什么。

1个回答

3
  1. 它指的是神经网络的权重。
  2. Φ(s)指的是预处理映射/步骤,Φ是Φ(s1)的简称。每个帧都是210x160像素x 128种颜色。在论文中使用了一些预处理方法。他们消除了闪烁,只使用亮度,重新缩放和堆叠。请参阅2015年论文中的“方法”部分。

太好了,谢谢!我之前甚至都没找到这篇2015年的论文,现在我要仔细阅读一下。 - Dope

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接