那么这个程序包会意识到它们不是连续的而将它们视为因子吗?我知道,在分类中,被分类的特征确实需要成为一个因子。但是对于预测性特征呢?我在一些玩具数据集上运行了它,发现分类特征是数值型还是因子型会得到稍微不同的结果,但算法是随机的,所以我不知道结果的差异是否有意义。
谢谢!
那么这个程序包会意识到它们不是连续的而将它们视为因子吗?我知道,在分类中,被分类的特征确实需要成为一个因子。但是对于预测性特征呢?我在一些玩具数据集上运行了它,发现分类特征是数值型还是因子型会得到稍微不同的结果,但算法是随机的,所以我不知道结果的差异是否有意义。
谢谢!
randomForest
包(因此所有预测变量都在{0,1}中),将它们作为连续或分类变量传递没有任何区别。在前一种情况下,拆分条件类似于x>0.5
或x<0.5
,这相当于在0和1之间进行二进制选择。然而,令人费解的是,RF在分类预测变量方面要慢得多,因此如果可以的话,我总是选择连续属性。 - stas g
set.seed(number)
为RNG设置种子,其中number
是任何整数。然后您可以测试您的假设是否正确。 - ialm