我使用15451个样本对两个支持向量机(LIBSVM)进行训练,经过10倍交叉验证后找到了gamma和C(RBF内核)的最佳参数值。在一个支持向量机中,我只使用了一个特征,在第二个支持向量机中使用了额外的特征(以查看此附加项是否有助于提高预测)。 经过CV后,我拥有75%(使用一种特征的支持向量机)和77%(使用该额外特征的支持向量机)的准确性。 在测试另外15451个实例后,它们各自的准确度分别为70%和72%。
我知道这被称为过度拟合,但在这里是否显着,因为只有5%的差异。
我应该如何避免过度拟合?
仅使用一到两个特征和相对较大的训练集是否有益?
希望可以帮助您解决问题。