什么是Deep Q-learning算法中的phi？

Question

3

我正在尝试使用Java从头开始制作一个学习足球游戏，并尝试使用Google DeepMind的Deep Q-learning算法（没有卷积网络）来实现强化学习。我已经构建了神经网络和Q-learning，现在我正在尝试将它们结合起来，但是在这段代码中有一些我不理解的地方。

预处理的序列化Φ1 = Φ(s1)（第4行）

我只是无法弄清楚在这个算法中Φ代表什么。

- Dope

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Juan Leni · Accepted Answer

它指的是神经网络的权重。
Φ（s）指的是预处理映射/步骤，Φ是Φ（s1）的简称。每个帧都是210x160像素x 128种颜色。在论文中使用了一些预处理方法。他们消除了闪烁，只使用亮度，重新缩放和堆叠。请参阅2015年论文中的“方法”部分。