我正在处理与书面文本相关的分类任务,并且想知道执行某种“特征选择”程序以改进分类结果的重要性。我使用了大约40个与主题相关的特征,但我不确定所有特征是否真正相关以及它们的组合方式。我在使用 SVM (scikits) 和 LDAC (mlpy) 进行实验。如果我具有相关和无关的特征混合,我假设我将获得较差的分类结果。我应该在分类之前执行“特征选择程序”吗?Scikits 具有 基于树的 RFE 过程,能够对特征进行排名。使用基于树的 RFE 对特征进行排名并选择最重要的特征,再使用 SVM(非线性)或 LDAC 进行实际分类,这样做是否有意义?还是应该使用相同的分类器来实现某种包装方法来对特征进行排名(尝试使用不同特征组进行分类会非常耗时)?