将预测结果映射回ID - Python Scikit Learn DecisionTreeClassifier

Question

将预测结果映射回ID - Python Scikit Learn DecisionTreeClassifier

pythonscikit-learnclassificationdecision-treevalueerror

5

我有一个数据集，其中包含唯一标识符和其他特征。它看起来像这样：

ID      LenA TypeA LenB TypeB Diff Score Response
123-456  51   M     101  L     50   0.2   0
234-567  46   S     49   S     3    0.9   1
345-678  87   M     70   M     17   0.7   0

我将其分为训练和测试数据。我正在尝试使用在训练数据上训练的分类器将测试数据分类为两类。我想要在训练和测试数据集中有标识符，这样我就可以将预测结果映射回ID。
是否有一种方法可以将标识符列指定为ID或非预测变量，就像我们可以在Azure ML Studio或SAS中做的那样？
我正在使用Scikit-Learn中的DecisionTreeClassifier。这是我用于分类器的代码。

from sklearn import tree

clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)

如果我仅仅将ID包含在traindata中，代码会抛出一个错误:

ValueError: invalid literal for float(): 123-456

- Minu

你是如何进行训练集和测试集的划分的？ - Grr

@Grr... 目前，我只是将其分成两半，并单独将CSV文件加载为训练数据和测试数据。 - Minu

2个回答

0

pandas dataframe在进行转换时保持其顺序（除了创建/删除行的join/merge）。

因此，以下是逐步操作：

使用'id'列创建'df_test'数据框
创建不包含'id'列的'df_test2' df_test2 = df_test.drop(["id"], axis=1)
将'df_test2'输入模型进行预测 pred = model.predict(df_test2)
从df_test的'id'列创建'df_pred_final' df_pred_final = df_test[["id"]]
将'target'列添加到'df_pred_final'。id-target对应关系应正确映射 df_pred_final["target"] = pred

请查看我的kaggle笔记本。您可能会有所启发。 https://www.kaggle.com/tthien/20210412-complex-drop-c10-c2

- Haha TTpro

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Grr · Accepted Answer

不知道您如何进行分割，建议确保在训练数据中不包括ID列。可能可以像这样：

X_train, X_test, y_train, y_test = test_train_split(df.ix[:, ~df.columns.isin(['ID', 'Response'])].values, df.Response)

这将仅从DataFrame中不包含ID或Response的值中拆分X值，并拆分Response以获取y值。

但您仍然无法使用DecisionTreeClassifier来处理此数据，因为它包含字符串。您需要将任何具有分类数据的列（即TypeA和TypeB）转换为数字表示。在我看来，使用LabelEncoder是使用sklearn的最佳方法。使用它将把分类字符串标签['M'，'S']转换为[1,2]，可以与DecisionTreeClassifier一起实现。如果您需要一个示例，请查看将分类数据传递给sklearn决策树。

更新

根据您的评论，我现在理解您需要映射回ID。在这种情况下，您可以利用pandas。将ID设置为数据的索引，然后进行拆分，这样您就可以保留所有训练和测试数据的ID值。假设您的数据已经在一个pandas数据帧中。

df = df.set_index('ID')
X_train, X_test, y_train, y_test = test_train_split(df.ix[:, ~df.columns.isin(['Response'])], df.Response)
print(X_train)
         LenA TypeA  LenB TypeB  Diff  Score
ID
345-678    87     M    70     M    17    0.7
234-567    46     S    49     S     3    0.9