使用e1071进行基本SVM操作时遇到的问题:测试误差率与调参结果不一致。

4
这似乎是一个非常基础的问题,但我似乎找不到答案。我对SVM和机器学习都很陌生,正试图做一些简单的练习,但结果似乎不匹配。我正在使用R中的e1071,并阅读James,Witten,Hastie和Tibshirani的《统计学习入门》。
我的问题是:为什么当我使用predict时,我似乎没有任何分类错误,但tune函数的结果表明有非零错误率? 我的代码(我正在查看三个类):
set.seed(4)
dat <- data.frame(pop = rnorm(900, c(0,3,6), 1), strat = factor(rep(c(0,1,2), times=300)))
ind <- sample(1:900)
train <- dat[ind[1:600],]
test <- dat[ind[601:900],]

tune1 <- tune(svm, train.x=train[,1], train.y=train[,2], kernel="radial", ranges=list(cost=10^(-1:2), gamma=c(.5,1,2)))
svm.tuned <- svm(train[,2]~., data=train, kernel = "radial",  cost=10, gamma=1) # I just entered the optimal cost and gamma values returned by tune
test.pred <- predict(svm.tuned, newdata=data.frame(pop=test[,1],strat=test[,2]))

当我查看test.pred时,我发现每个值都与真实类标签匹配。但是当我调整模型时,它给出了约0.06的错误率,而且无论如何,非可分数据的测试误差率为0似乎很荒谬(除非我对此不能被分离的观点是错误的?)。任何澄清都将非常有帮助。非常感谢。

1个回答

6

tune函数执行10次交叉验证。它随机将您的训练数据分成10个部分,然后迭代执行以下步骤:

  • 选择其中一个部分并将其称为“验证集”
  • 选择剩余的9个部分并将它们称为“训练集”
  • 使用给定参数在训练集上训练支持向量机,并检查其在验证集上的表现
  • 计算这些10个“折叠”之间的平均误差

“tune”函数提供的信息就是这个平均误差。一旦选择了最佳参数,您就会在完整的数据集上进行模型训练,这个数据集比用于调整的数据集要大1/9。因此,在您特定的情况下(这种情况不经常发生)- 您得到的分类器可以完美地预测您的“测试”集,而在调整时训练的一些较小的分类器可能会出现一些小错误 - 这就是为什么您会得到有关不同误差的信息。

更新

看起来,您实际上还在同时训练模型的输入标签。请看您的

svm.tuned$SV

变量,它保存支持向量。

要训练svm,只需运行

svm(x,y,kernel="...",...)

例如

svm(train$pop, train$strat, kernel="linear" )

这导致了一些错误分类(正如预期的那样,因为线性核无法完全分离这样的数据)。

或者按照你的记号:

svm.tuned <- svm(strat~., data=train, kernel = "radial",  cost=10, gamma=1)

请注意,您应该使用框架列的名称 strat 而不是索引。


所以,即使这些数据非常难以分离,这个模型仍然能够完美地对它们进行分类?这似乎有点难以置信。无论如何,感谢您澄清了为什么CV错误率似乎总是比整体训练错误率大一些的问题。 - jld
2
非可分是什么意思?您正在使用高斯核,正确的参数将分离任何一致的数据集(一致=没有两个标签不同的完全相同的点)。这是无限维特征空间的结果。 - lejlot
非常感谢!那个更新解决了问题。还要感谢您定义了一致的数据集,我以前从未听说过这个术语。 - jld

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接