使用e1071进行基本SVM操作时遇到的问题：测试误差率与调参结果不一致。

Question

使用e1071进行基本SVM操作时遇到的问题：测试误差率与调参结果不一致。

4

这似乎是一个非常基础的问题，但我似乎找不到答案。我对SVM和机器学习都很陌生，正试图做一些简单的练习，但结果似乎不匹配。我正在使用R中的e1071，并阅读James，Witten，Hastie和Tibshirani的《统计学习入门》。

我的问题是：为什么当我使用predict时，我似乎没有任何分类错误，但tune函数的结果表明有非零错误率？我的代码（我正在查看三个类）：

set.seed(4)
dat <- data.frame(pop = rnorm(900, c(0,3,6), 1), strat = factor(rep(c(0,1,2), times=300)))
ind <- sample(1:900)
train <- dat[ind[1:600],]
test <- dat[ind[601:900],]

tune1 <- tune(svm, train.x=train[,1], train.y=train[,2], kernel="radial", ranges=list(cost=10^(-1:2), gamma=c(.5,1,2)))
svm.tuned <- svm(train[,2]~., data=train, kernel = "radial",  cost=10, gamma=1) # I just entered the optimal cost and gamma values returned by tune
test.pred <- predict(svm.tuned, newdata=data.frame(pop=test[,1],strat=test[,2]))

当我查看test.pred时，我发现每个值都与真实类标签匹配。但是当我调整模型时，它给出了约0.06的错误率，而且无论如何，非可分数据的测试误差率为0似乎很荒谬（除非我对此不能被分离的观点是错误的？）。任何澄清都将非常有帮助。非常感谢。

- jld

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- lejlot · Accepted Answer

tune函数执行10次交叉验证。它随机将您的训练数据分成10个部分，然后迭代执行以下步骤：

选择其中一个部分并将其称为“验证集”
选择剩余的9个部分并将它们称为“训练集”
使用给定参数在训练集上训练支持向量机，并检查其在验证集上的表现
计算这些10个“折叠”之间的平均误差

“tune”函数提供的信息就是这个平均误差。一旦选择了最佳参数，您就会在完整的数据集上进行模型训练，这个数据集比用于调整的数据集要大1/9。因此，在您特定的情况下（这种情况不经常发生）- 您得到的分类器可以完美地预测您的“测试”集，而在调整时训练的一些较小的分类器可能会出现一些小错误 - 这就是为什么您会得到有关不同误差的信息。

更新

看起来，您实际上还在同时训练模型的输入和标签。请看您的

svm.tuned$SV

变量，它保存支持向量。

要训练svm，只需运行

svm(x,y,kernel="...",...)

例如

svm(train$pop, train$strat, kernel="linear" )

这导致了一些错误分类（正如预期的那样，因为线性核无法完全分离这样的数据）。

或者按照你的记号：

svm.tuned <- svm(strat~., data=train, kernel = "radial",  cost=10, gamma=1)

请注意，您应该使用框架列的名称 strat 而不是索引。