确定数据分析中一个变量的重要性。

3

我们通常如何确定数据集中给定变量(特征)对于准确进行预测任务的重要性?

应该进行哪些测试来确定变量是否适合用于预测?

假设我有32个特征之一是“收入”,那么我应该如何开始分析它的重要性。是否有必要将此特征与其他特征进行比较,因为最终帮助预测的是变量集合而不是这两个被比较的变量...

1个回答

2

从这里开始(特别是特征选择教程和示例):

http://machinelearningmastery.com/an-introduction-to-feature-selection/

还有这里(列出了更多可供搜索的方法数量):

https://en.wikipedia.org/wiki/Feature_selection

此外,这篇文章对该问题进行了更一般的讨论:

http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

最简单的方法是尝试在数据集上拟合一个随机森林或梯度提升模型。这些算法会在拟合过程中自动评估每个特征的重要性,在分类器或回归器拟合后,您可以访问(在scikit-learn中)其feature_importances_属性 - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接