17得票1回答
在SARSA-Lambda实现中,资格迹在每个回合之间重新初始化的问题

我正在查看这个SARSA-Lambda实现(即带有资格迹的SARSA),但仍有一个细节我不太明白。 (图片来源于http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) 所以我理解所有的Q(s,a)都会被更新,而不仅仅是...

17得票8回答
PyTorch模型训练:运行时错误:cuDNN错误:CUDNN_STATUS_INTERNAL_ERROR

在 GPU 上训练 PyTorch 模型数小时后,程序出现以下错误: RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR 训练条件 神经网络:PyTorch 4层 nn.LSTM 神经网络和 nn.Linear 输出 D...

16得票4回答
在Keras中使用Tensorflow Huber损失函数

我正在尝试在Keras模型(编写DQN)中使用Huber Loss,但是结果不佳,我认为我做错了什么。以下是我的代码。model = Sequential() model.add(Dense(output_dim=64, activation='relu', input_dim=state_d...

16得票3回答
使用可变动作的强化学习

我读过的所有强化学习算法通常都应用于一个具有固定行动数量的单个代理。是否有任何强化学习算法可以考虑变量数量的行动来做出决策?例如,在玩家控制N名士兵且每个士兵根据其状态具有随机数量的行动的计算机游戏中,如何应用强化学习算法?你无法为全局决策制定固定数量的行动(即“将军”),因为可用行动会随着士...

16得票3回答
如何在OpenAI的gym中注册自定义环境?

我创建了一个自定义环境,遵循OpenAI Gym框架,其中包含step、reset、action和reward函数。我想在这个自定义环境上运行OpenAI基线算法。但在此之前,这个环境必须在OpenAI gym上进行注册。我想知道如何在OpenAI gym上注册自定义环境?另外,我需要修改Op...

15得票4回答
属性错误: 模块“_Box2D”没有属性“RAND_LIMIT_swigconstant”。

我正在尝试使用强化学习来运行月球着陆器,但当我运行它时,出现了一个错误。此外,我的计算机是OSX系统。 这是月球着陆器的代码:import numpy as np import gym import csv from keras.models import Sequential from ...

15得票1回答
C++ 强化学习库

我一直在寻找一个实现强化学习算法的C++库,但结果并不令人满意。 我发现了TU Graz的Reinforcement Learning Toolbox 2.0,但不幸的是这个项目已经很老了,我无法编译它。 还有Hado van Hasselt的代码。看起来很有前途,但似乎没有得到积极维护。...

15得票1回答
稳定基线模型中total_timesteps参数的理解

我正在阅读原始PPO论文,并尝试将其与stable-baselines PPO2模型的输入参数匹配。 我不理解的一件事是learn方法中的total_timesteps参数。 论文提到: “一种策略梯度实现方式......运行T个时间步长的策略(其中T远小于回合长度)” 而stable...

14得票3回答
C#中的强化学习

我打算在我的项目中使用强化学习,但我不太知道如何实施。 因此,我正在寻找一个包含不同RL算法的库,可以在我的C#项目中使用。 谢谢 请注意: 我已经找到了神经网络库NeuronDotNet,现在正在寻找RL库。 编辑:或者是Dot NET库

14得票1回答
实现TD-Gammon算法

我正在尝试实现Gerald Tesauro的TD-Gammon文章中的算法。学习算法的核心在下面这段话中描述: 我决定只有一个隐藏层(如果这足以在1990年代初打世界级的双陆棋,那么对我来说也足够了)。我相当确定除了train()函数之外的所有内容都是正确的(它们更容易测试),但我不...