如何将同一字符串持续编码到同一列中?
在scikit-learn中跨多个列进行标签编码提出了一种处理具有多个分类值的数据框的好方法。但是,我不确定它是否正确地持久化(在pickle中)并且会针对新输入的数据应用相同的标签。
到目前为止,我直接使用pandas,并通过类别值的
是否可以像这样:
或者
到目前为止,我直接使用pandas,并通过类别值的
.cat.codes
获得标签。但现在我需要将标签编码集成到管道中,以处理新输入的数据。是否可以像这样:
le = LabelEncoder()
for col in df.select_dtypes([], ['object'].columns:
df[col] = le.fit_transform(df[col])
或者
MultiColumnLabelEncoder
提出的解决方案是否足以满足我的任务要求?