我的数据中有一些分类特征和连续特征。独热编码类别特征来寻找它与标签的相关性以及其他连续特征的相关性究竟是好还是绝对不好的想法?
问题 假设我们有一个看起来像这样的数据框: age job friends label 23 'engineer' ['World of Warcraft', 'Netflix', '9gag']...
sklearn.LabelEncoder的文档开头是这样写的: 这个转换器应该被用来编码目标值,即 y,而不是输入的 X。 为什么会这样呢? 我只举一个忽略了这条建议的例子,但似乎还有很多类似的情况。 https://www.kaggle.com/matleonard/featu...
这可能是一个初学者的问题,但我看到很多人使用LabelEncoder()将分类变量替换为有序性。很多人通过一次传递多个列来使用此功能,但是我对某些特征中存在错误顺序性及其对模型的影响有疑问。以下是一个示例: 输入 import pandas as pd import numpy as np...