得票数最多 'reinforcement-learning' 问题 - 第2页

关联标签

34得票5回答

我知道SVM在自动选择表示复杂度并找到全局最优解方面被认为是“ANN killers”（有关一些赞扬SVM的引用，请参见此处）。但这就是我不清楚的地方——所有这些优越性的声明是否仅适用于两个类别决策问题，或者它们是否更进一步？（我假设它们适用于非线性可分的类别，否则没人会关心）以下是我...

31得票4回答

是否可以使用OpenAI的gym环境进行多智能体游戏？具体而言，我想对四个玩家(智能体)的一种纸牌游戏建模。得分最高的玩家开始下一轮。如何建模玩家之间必要的协作（例如下一个回合是谁的）？最终，我希望对互相对战的四个智能体使用强化学习。

30得票2回答

我最近在做一个使用神经网络进行虚拟机器人控制的项目。我使用了tensorflow来编写它，并且运行非常顺畅。到目前为止，我使用了连续模拟来评估神经网络的好坏，但是我想同时运行几个仿真以减少获取数据所需的时间。为此，我导入了Python的 multiprocessing包。最初，我将sess...

27得票1回答

尝试使用Pytorch创建神经网络并进行优化时，出现以下错误: ValueError: optimizer got an empty parameter list 这是代码:import torch.nn as nn import torch.nn.functional as F from...

27得票6回答

[请注意，我正在使用xvfb-run -s "-screen 0 1400x900x24" jupyter notebook命令。] 我尝试在OpenAI Gym中运行基本的一组命令。import gym env = gym.make("CartPole-v0") obs = env.res...

26得票9回答

对于一个ai课程的项目，我需要实现一个能够打败简单版俄罗斯方块的强化学习算法。该游戏使用Java编写，并且我们有源代码。我了解强化学习理论的基础知识，但想知道SO社区中是否有人具有此类经验。您推荐用于在俄罗斯方块游戏中实现强化学习的阅读材料是什么？是否有任何开源项目完成了类似的事情值得...

23得票3回答

我想在笔记本中玩OpenAI Gym，并行内渲染Gym。这是一个基本的例子：import matplotlib.pyplot as plt import gym from IPython import display %matplotlib inline env = gym.make('...

23得票4回答

与这个问题类似，我正在运行一个异步强化学习算法，并需要在多个线程中运行模型预测以更快地获取训练数据。我的代码基于GitHub上的DDPG-keras，其神经网络是建立在Keras和Tensorflow之上的。下面展示了我的代码部分：创建和加入异步线程：for roundNo in xra...

23得票1回答

我正在学习强化学习，并为大学课程阅读Sutton的书。除了传统的PD、MC、TD和Q-Learning算法，我还在了解策略梯度方法和遗传算法来解决决策问题。我以前从未接触过这个话题，我在理解何时应该首选一种技术方面遇到了问题。我有一些想法，但不确定它们是否正确。有人可以简要解释一下或告诉我一...

23得票1回答

我正在大学上一门名为“智能机器”的课程。我们被介绍了三种强化学习方法，并且给出了何时使用它们的直觉，我引用如下： Q-Learning - 最适用于无法解决MDP的情况。时序差分学习 - 当MDP已知或可以学习但无法解决时最好。基于模型的学习 - 最适用于无法学习MDP的情况。 ...