我能找到的所有使用随机森林进行预测的示例都已经有了实际答案(即测试集具有标签)。当您没有该列时该怎么办?
例如,此教程使用鸢尾花数据:http://mkseo.pe.kr/stats/?p=220 如果我们真的这样做,测试数据集将包含[1,4]列,而不是第5列。如果您尝试在没有第5列的情况下运行此操作,则会出现一个错误,即数据帧大小不同,显然它们并不相同。
当您没有答案列时如何进行预测?
编辑 使用上面链接的摘录进行澄清:
准备训练和测试集。
例如,此教程使用鸢尾花数据:http://mkseo.pe.kr/stats/?p=220 如果我们真的这样做,测试数据集将包含[1,4]列,而不是第5列。如果您尝试在没有第5列的情况下运行此操作,则会出现一个错误,即数据帧大小不同,显然它们并不相同。
当您没有答案列时如何进行预测?
编辑 使用上面链接的摘录进行澄清:
准备训练和测试集。
test = iris[ c(1:10, 51:60, 101:110), ]
train = iris[ c(11:50, 61:100, 111:150), ]
测试数据框已经有完整的物种列。我正在尝试根据从训练集中生成的森林预测物种。所以,我现在的位置是在运行以下代码之后:
test <- test[-5]
如果我已经收集了一堆植物测量数据,并且想根据我从训练数据中生成的树模型来确定物种,那么我现在就处于这个位置。因此,基于测试数据帧中剩余的数据和使用训练数据帧生成的随机森林,该如何预测我刚刚删除的物种列呢?
predict
函数不会抱怨缺少_response_变量。因此,您正在做其他错误,但我们怎么知道是什么呢? - joran