主要目标如下:
对连续变量应用
StandardScaler
对分类变量应用
LabelEncoder
和OnehotEncoder
需要对连续变量进行缩放,但同时也有几个分类变量是整数类型的。应用StandardScaler
将产生不良影响。
相反,StandardScaler
将缩放基于整数的分类变量,这也不是我们想要的。
由于连续变量和分类变量混合在单个Pandas
数据框中,因此应采取什么样的工作流程来解决这种问题?
最好的例子是Kaggle自行车共享需求数据集,其中season
和weather
是整数分类变量。
StandardScalar
是按列处理的,我认为它不会对独热编码变量产生任何影响。你尝试过对单个数据框执行上述操作吗?你是否找到了你似乎遇到的问题的原因? - Vivek KumarStandardScaler().fit_transform(df)
并告诉我结果如何? - James Wong