如何向Pandas DataFrame添加虚拟数据？

Question

如何向Pandas DataFrame添加虚拟数据？

16

我有一个 data_df，长这样：

   price vehicleType  yearOfRegistration    gearbox  powerPS  model  kilometer fuelType       brand notRepairedDamage  postalCode
0  18300       coupe                2011    manuell      190    NaN     125000   diesel        audi                ja       66954
1   9800         suv                2004  automatik      163  grand     125000   diesel        jeep               NaN       90480
2   1500  kleinwagen                2001    manuell       75   golf     150000   benzin  volkswagen              nein       91074
3   3600  kleinwagen                2008    manuell       69  fabia      90000   diesel       skoda              nein       60437
4    650   limousine                1995    manuell      102    3er     150000   benzin         bmw                ja       33775

尝试将分类列 (vehicleType) 转换为哑变量 ("独热编码")：

columns = [ 'vehicleType' ] #, 'gearbox', 'model', 'fuelType', 'brand', 'notRepairedDamage' ]
for column in columns:
  dummies = pd.get_dummies(data_df[column], prefix=column)
  data_df.drop(columns=[column], inplace=True)
  data_df = data_df.add(dummies, axis='columns')

但是原始数据丢失了：

  brand fuelType gearbox  kilometer model notRepairedDamage  ...  vehicleType_coupe  vehicleType_kleinwagen  vehicleType_kombi  vehicleType_limousine  vehicleType_suv  yearOfRegistration
0   NaN      NaN     NaN        NaN   NaN               NaN  ...                NaN                     NaN                NaN                    NaN              NaN                 NaN
1   NaN      NaN     NaN        NaN   NaN               NaN  ...                NaN                     NaN                NaN                    NaN              NaN                 NaN
2   NaN      NaN     NaN        NaN   NaN               NaN  ...                NaN                     NaN                NaN                    NaN              NaN                 NaN
3   NaN      NaN     NaN        NaN   NaN               NaN  ...                NaN                     NaN                NaN                    NaN              NaN                 NaN
4   NaN      NaN     NaN        NaN   NaN               NaN  ...                NaN                     NaN                NaN                    NaN              NaN                 NaN

那么，如何用虚拟变量替换给定列？

- B Seven

你能否提供一个稍微简化一些的示例（仅使用2到3列），并为它们提供您期望的输出呢？ - cs95

2个回答

11

你可以使用一种更简洁的方式：

data_df = pd.get_dummies(data,columns=['vehicleType'],drop_first=True)

这行代码将删除旧的'车辆类型(vehicleType)'列，并自动将新创建的列加入数据集中。

- joe abou nakkoul

1

我注意到 drop_first 会通过删除一个虚拟变量来创建一个基础水平，这可能不是所需的。 - RegressForward

Drop first 会移除一个分类值。文档 - Mr. Hobo

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user2510479 · Accepted Answer

# Get one hot encoding of columns 'vehicleType'
one_hot = pd.get_dummies(data_df['vehicleType'])
# Drop column as it is now encoded
data_df = data_df.drop('vehicleType',axis = 1)
# Join the encoded df
data_df = data_df.join(one_hot)
data_df