- 我正在尝试使用多层神经网络在部分可观测马尔可夫过程中实现概率函数。
- 我认为神经网络的输入应该是:当前状态、选择的动作、结果状态;输出是一个在[0,1]范围内的概率(执行所选动作会导致当前状态转移到结果状态的概率)。
- 在训练时,我把上述输入馈送到神经网络中,并教它每个已发生情况的输出=1.0。
问题:
几乎所有测试用例的输出概率都接近于0.95,没有任何输出低于0.9!即使对于几乎不可能的结果,它也给出了如此高的概率。
附注:我认为这是因为我只教它已发生的情况,而没有教它未发生的情况。但我不能在每一步中都告诉它每个未发生的动作的输出=0.0!
有什么建议可以克服这个问题吗?或者还有其他使用神经网络或实现概率函数的方法吗?
谢谢