如何将特征的不确定性纳入机器学习算法？

Question

5

我正在使用Scikit Learn的决策树对数据集进行回归分析。虽然我得到了非常好的结果，但是一个让我担心的问题是很多特征相对不确定性非常高。
我试着删除那些不确定性较高的案例，但这将大大降低模型的性能。

这些特征本身是通过实验确定的，因此它们具有与之相关的实验不确定性。数据本身并不嘈杂。

所以我的问题是，是否有一种好的方法将特征相关的不确定性纳入到机器学习算法中？

感谢您的所有帮助！

- Nuke_scientist

为不确定的特征添加随机噪声，对每个变异数据集进行回归，并计算回归参数的统计信息。 - DYZ

你能详细说明一下“许多特征的相对不确定性非常高”吗？例如，您是否预计输入数据中会有很多噪声？如果是这种情况，有许多噪声去除/减少/适应策略可供尝试。 - ctj232

这些特性本身是通过实验确定的，因此它们具有相关的实验不确定性。数据本身并不嘈杂。 - Nuke_scientist

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Daniel Wyatt · Accepted Answer

如果不确定的特征正在改进算法，这意味着它们一起是有用的。然而，其中一些可能并非如此。我的建议是摆脱那些不能改进算法的特征。您可以使用贪婪特征消除算法。

该算法首先在所有特征上训练模型，然后消除被认为最不有用的特征。然后再次训练模型，但少了一个特征。

希望这能帮到您。