我有一个数据集,其中包含14个特征,其中一些如下所示,性别和婚姻状况是分类变量。
height,sex,maritalStatus,age,edu,homeType
SEX
1. Male
2. Female
MARITAL STATUS
1. Married
2. Living together, not married
3. Divorced or separated
4. Widowed
5. Single, never married
现在我正在使用R中的rpart库来构建分类树,使用以下代码:
rfit = rpart(homeType ~., data = trainingData, method = "class", cp = 0.0001)
这给我一个决策树,不考虑性别和婚姻状况因素。
我正在考虑使用as.factor来实现这个目的:
sex = as.factor(trainingData$sex)
ms = as.factor(trainingData$maritalStatus)
不过我不确定如何将这些信息传递给rpart。因为rpart()中的数据参数需要“trainingData”数据框。它将始终采用该数据框中的值。 我对R有点陌生,希望有人能帮助我。