我正在使用R中boot库的cv.glm交叉验证过程来测试逻辑回归的性能。
我的一些预测变量是因子。
运行时,我收到以下错误消息:
Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels)
factor color has new levels RED
我想我理解了这个问题。可能是因为我在一个子集的观察数据上训练回归模型,而这个子集中某些水平的因子变量不存在。如果后来将此模型用于包括未见过的预测变量水平的新观测数据,则它不知道该如何行事。
由于这看起来像是一个基本的交叉验证问题,我很惊讶在库文档中没有找到任何提及。
我会非常感激任何指针。