我有一个数据集,其中包含唯一标识符和其他特征。它看起来像这样:
是否有一种方法可以将标识符列指定为ID或非预测变量,就像我们可以在Azure ML Studio或SAS中做的那样?
我正在使用Scikit-Learn中的DecisionTreeClassifier。这是我用于分类器的代码。
如果我仅仅将ID包含在
我将其分为训练和测试数据。我正在尝试使用在训练数据上训练的分类器将测试数据分类为两类。我想要在训练和测试数据集中有标识符,这样我就可以将预测结果映射回ID。ID LenA TypeA LenB TypeB Diff Score Response 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
是否有一种方法可以将标识符列指定为ID或非预测变量,就像我们可以在Azure ML Studio或SAS中做的那样?
我正在使用Scikit-Learn中的DecisionTreeClassifier。这是我用于分类器的代码。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)
如果我仅仅将ID包含在
traindata
中,代码会抛出一个错误:
ValueError: invalid literal for float(): 123-456