我正在将两个数据框串联在一起,所以我想要一个数据框位于另一个数据框之上。 但是在此之前,我对初始数据框进行了一些变换:
scaler = MinMaxScaler()
real_data = pd.DataFrame(scaler.fit_transform(df[real_columns]), columns = real_columns)
然后连接:
categorial_data = pd.get_dummies(df[categor_columns], prefix_sep= '__')
train = pd.concat([real_data, categorial_data], axis=1, ignore_index=True)
我不知道为什么,但是行数增加了:
print(df.shape, real_data.shape, categorial_data.shape, train.shape)
(1700645, 23) (1700645, 16) (1700645, 130) (1703915, 146)
发生了什么,如何解决这个问题?
正如您所看到的,train的列数等于real_data和categorial_data列数之和。