Python机器学习，特征选择。

Question

Python机器学习，特征选择。

3

我正在处理与书面文本相关的分类任务，并且想知道执行某种“特征选择”程序以改进分类结果的重要性。我使用了大约40个与主题相关的特征，但我不确定所有特征是否真正相关以及它们的组合方式。我在使用 SVM (scikits) 和 LDAC (mlpy) 进行实验。如果我具有相关和无关的特征混合，我假设我将获得较差的分类结果。我应该在分类之前执行“特征选择程序”吗？Scikits 具有基于树的 RFE 过程，能够对特征进行排名。使用基于树的 RFE 对特征进行排名并选择最重要的特征，再使用 SVM（非线性）或 LDAC 进行实际分类，这样做是否有意义？还是应该使用相同的分类器来实现某种包装方法来对特征进行排名（尝试使用不同特征组进行分类会非常耗时）？

- andreSmol

通过选择，研究使用进化算法来提高你的结果。 - Joel Cornett

2

好的，你可以尝试进行特征选择；这是它的预期用例。不过，如果没有更多关于你的问题的细节，这就非常难回答了。你也可以手动尝试不同的特征集。 - Fred Foo

2个回答

0

拥有40个特征并不算太糟糕。一些机器学习受到无关特征的阻碍，但许多事情对它们相当稳健（例如朴素贝叶斯、支持向量机、决策树）。除非您决定添加更多特征，否则您可能不需要进行特征选择。

抛弃无用的特征并不是一个坏主意，但除非您有特定的动机，否则不要浪费自己的精力去尝试。

- Dan Stowell

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ogrisel · Accepted Answer

尝试一下，看看它是否可以提高使用交叉验证测量的分类得分。在尝试RFE之前，我建议先尝试一些CPU负荷较小的方案，例如单变量卡方特征选择。