我正在评估多种算法,其任务是预测事件发生的概率。我正在使用大型数据集测试算法。我使用“均方根误差”来衡量它们的有效性,该值是(错误之和的平方)的平方根。误差是预测概率(介于0和1之间的浮点值)与实际结果(0.0或1.0)之间的差异。因此,我知道RMSE以及算法被测试的样本数量。
问题在于,有时RMSE值非常接近,我需要一种方法来确定它们之间的差异是否只是偶然,还是它代表了性能上的实际差异。
理想情况下,对于给定的两个RMSE值,我想知道其中一个真正比另一个更好的概率,以便可以将此概率用作显著性阈值。
问题在于,有时RMSE值非常接近,我需要一种方法来确定它们之间的差异是否只是偶然,还是它代表了性能上的实际差异。
理想情况下,对于给定的两个RMSE值,我想知道其中一个真正比另一个更好的概率,以便可以将此概率用作显著性阈值。