强化学习和POMDP

Question

3

问题：
几乎所有测试用例的输出概率都接近于0.95，没有任何输出低于0.9！即使对于几乎不可能的结果，它也给出了如此高的概率。

附注：我认为这是因为我只教它已发生的情况，而没有教它未发生的情况。但我不能在每一步中都告诉它每个未发生的动作的输出=0.0！

有什么建议可以克服这个问题吗？或者还有其他使用神经网络或实现概率函数的方法吗？

谢谢

- Betamoo

2个回答

0

在拟合神经网络时，您可能希望拟合更广泛的数据范围，在训练中是否有任何您想要使其更接近0概率的数据？如果没有，我怀疑您可能会得到较差的结果。作为第一步，我建议尝试选择训练数据集中的一些不同内容。

另外，您是如何训练神经网络的？您尝试过使用其他方法吗？激活函数怎么样？也许可以尝试使用一些不同的激活函数进行实验。

对于神经网络，我认为在选择模型时需要进行一些试错。（如果所有这些都不够具体，请见谅。）

- shuttle87

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- bayer · Accepted Answer

问题在于所有可能的后续状态的总和必须等于1。如果您构建网络就像那样，这不能保证。我脑海中有两种可能的替代方案，其中我假设离散状态。

从数学角度看，这两者实际上大致相等。

在连续变量的情况下，您将不得不假设分布（例如多元高斯分布），并使用该分布的参数（例如平均值和协方差标准偏差）作为输出。