如何为glmnet多项式逻辑回归获取混淆矩阵?

3

我正在适配多项式逻辑回归模型,并希望获取混淆矩阵以获得准确性。

library("glmnet")
x=data.matrix(train[-1])
y= data.matrix(train[1])
x_test=data.matrix(test[-1])
y_test=unlist(test[1])

fit.glm=glmnet(x,y,family="multinomial",alpha = 1, type.multinomial = "grouped")
cvfit=cv.glmnet(x, y, family="multinomial", type.multinomial = "grouped", parallel = TRUE)
y_predict=unlist(predict(cvfit, newx = x_test, s = "lambda.min", type = "class"))

然后我使用caret库来计算混淆矩阵

library("lattice")
library("ggplot2")
library("caret")
confusionMatrix(data=y_predict,reference=y_test)

我遇到了一个错误,但不知道如何解决:

Error in confusionMatrix.default(data = y_predict, reference = y_test) : 数据必须包含与参考数据重叠的某些级别。

这是我的 y_predicty_test 的 str。它们可能有所帮助。

str(y_predict)
 chr [1:301, 1] "6" "2" "7" "9" "3" "2" "3" "6" "6" "8" "6" "5" "6" ...
 - attr(*, "dimnames")=List of 2
  ..$ : NULL
  ..$ : chr "1"

str(y_test)
 Factor w/ 10 levels "accessory","activation",..: 6 8 2 9 3 2 3 5 10 8 ...
 - attr(*, "names")= chr [1:301] "category1" "category2" "category3" "category4" ...

我使用unlist来避免出现这个错误:Error: x must be atomic for 'sort.list'
1个回答

0

跟踪标签并使用它将glmnet的结果转换回标签,并应用混淆矩阵是有意义的。我使用具有3个标签的鸢尾花数据集:

idx = sample(nrow(iris),100)
train = iris[idx,]
test = iris[-idx,]

我们将响应转换为数字:

x = data.matrix(train[,-5])
y = as.numeric(train[,5]) - 1
x_test = data.matrix(test[,-5])
y_test = as.numeric(test[,5]) - 1

适应,这里有点不同,我们返回概率:

cvfit=cv.glmnet(x, y, family="multinomial")
y_predict=predict(cvfit, newx = x_test, s = "lambda.min", type = "response")

在这个例子中,响应是列Species,在你的例子中它将是test[,1]
ref_labels = test$Species
pred_labels = levels(test$Species)[max.col(y_predict[,,1])]

caret::confusionMatrix(table(pred_labels,ref_labels))
Confusion Matrix and Statistics

            ref_labels
pred_labels  setosa versicolor virginica
  setosa         20          0         0
  versicolor      0         12         0
  virginica       0          0        18

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接