如何训练神经网络玩乒乓球游戏？

Question

3

我正在尝试理解这篇论文，该论文解释了如何训练神经网络玩乒乓球游戏。 https://cloud.github.com/downloads/inf0-warri0r/neural_pong/README.pdf 我最近开始学习神经网络，并了解反向传播的概念。在这篇论文中，反向传播被用来训练神经网络。

这个神经网络有五个输入神经元:

这个神经网络有十个隐藏层神经元和一个输出层神经元，输出挡板的位置（py）。

从这一点开始，我有一些疑问需要澄清。

由于反向传播是一种监督学习方法，因此它应该有一些期望的输出，我们从中迭代地减去当前输出以找到输出中的误差并计算梯度下降。

- Behroz

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Giewev · Accepted Answer

首先，我想劝告你不要将这篇论文用作教育工具。代码文档很差，而且论文本身也不是非常有信息量。

这种设计有一些缺点。例如，每个球只能为其提供一个数据点进行训练，而且由于当我们收集此数据点时球总是在游戏板的边缘，因此我们并没有学到关于球实际在地图上弹跳时如何移动的太多知识。

我建议跟踪网络所获得的所有值。稍后，您可以使用原始游戏状态和球实际结束位置来训练网络。这样即使它成功地阻止了球，也可以对网络进行有用的训练，并且它从游戏中的所有点获得数据。