如何将特征的不确定性纳入机器学习算法?

5
我正在使用Scikit Learn的决策树对数据集进行回归分析。虽然我得到了非常好的结果,但是一个让我担心的问题是很多特征相对不确定性非常高。
我试着删除那些不确定性较高的案例,但这将大大降低模型的性能。

这些特征本身是通过实验确定的,因此它们具有与之相关的实验不确定性。数据本身并不嘈杂。

所以我的问题是,是否有一种好的方法将特征相关的不确定性纳入到机器学习算法中?

感谢您的所有帮助!


为不确定的特征添加随机噪声,对每个变异数据集进行回归,并计算回归参数的统计信息。 - DYZ
你能详细说明一下“许多特征的相对不确定性非常高”吗?例如,您是否预计输入数据中会有很多噪声?如果是这种情况,有许多噪声去除/减少/适应策略可供尝试。 - ctj232
这些特性本身是通过实验确定的,因此它们具有相关的实验不确定性。 数据本身并不嘈杂。 - Nuke_scientist
1个回答

2
如果不确定的特征正在改进算法,这意味着它们一起是有用的。然而,其中一些可能并非如此。我的建议是摆脱那些不能改进算法的特征。您可以使用贪婪特征消除算法。
该算法首先在所有特征上训练模型,然后消除被认为最不有用的特征。然后再次训练模型,但少了一个特征。
希望这能帮到您。
参考链接:http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html

谢谢!这实际上是我最终所做的!我现在正在阅读一些不确定性量化的文本,并查看是否可以直接传播未来的错误。 - Nuke_scientist
好的。很高兴你觉得有帮助,如果你认为它是最有用的,请考虑选择我的答案。非常感谢 :) - Daniel Wyatt

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接