使用pandas将分类值转换为二进制

Question

使用pandas将分类值转换为二进制

pythonnumpypandastype-conversioncategorical-data

16

我正在尝试使用Pandas将分类值转换为二进制值。想法是将每个唯一的分类值视为一个特征（即一列），并根据某个对象（即一行）是否被分配到该类别中，放置1或0。以下是代码：

data = pd.read_csv('somedata.csv')
converted_val = data.T.to_dict().values()
vectorizer = DV( sparse = False )
vec_x = vectorizer.fit_transform( converted_val )
numpy.savetxt('out.csv',vec_x,fmt='%10.0f',delimiter=',')

我的问题是，如何将这些转换后的数据与列名一起保存？在上面的代码中，我可以使用numpy.savetxt函数来保存数据，但这样只会保存数组而列名会丢失。另外，有没有更有效的方法来执行上述操作？

- Rkz

也许使用 pd.data.to_csv() 更好。它有一个列参数，接受一个序列，默认值为 None。 - user4322779

2个回答

14

看起来您正在使用 scikit-learn 的 DictVectorizer 将分类值转换为二进制。在这种情况下，要将结果与新列名一起存储，可以使用来自 vec_x 的值和来自 DV.get_feature_names() 的列构建一个新的 DataFrame。然后，将 DataFrame 存储到磁盘上（例如使用 to_csv()），而不是 numpy 数组。

或者，也可以直接使用 pandas 使用 get_dummies 函数进行编码：

import pandas as pd
data = pd.DataFrame({'T': ['A', 'B', 'C', 'D', 'E']})
res = pd.get_dummies(data)
res.to_csv('output.csv')
print res

输出：

   T_A  T_B  T_C  T_D  T_E
0    1    0    0    0    0
1    0    1    0    0    0
2    0    0    1    0    0
3    0    0    0    1    0
4    0    0    0    0    1

- YS-L

通常情况下，您可能会有二进制变量或一些预定的可能值集（如A、B、C、D、E），在这种情况下，您可能希望删除其中一个变量，例如此示例中的A，因为其他4个类别足以唯一标识每个项目：项目0将被存储为[-,0,0,0,0]，告诉您该项目必须属于A。如何做到这一点： pd.get_dummies(data, drop_first=True) - Mark

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user2489252 · Accepted Answer

你是指"独热"编码吗？

假设你有以下数据集：

import pandas as pd
df = pd.DataFrame([
            ['green', 1, 10.1, 0], 
            ['red', 2, 13.5, 1], 
            ['blue', 3, 15.3, 0]])

df.columns = ['color', 'size', 'prize', 'class label']
df

现在，你有多种选择...

A) 繁琐的方法

color_mapping = {
           'green': (0,0,1),
           'red': (0,1,0),
           'blue': (1,0,0)}

df['color'] = df['color'].map(color_mapping)
df

import numpy as np
y = df['class label'].values
X = df.iloc[:, :-1].values
X = np.apply_along_axis(func1d= lambda x: np.array(list(x[0]) + list(x[1:])), axis=1, arr=X)

print('Class labels:', y)
print('\nFeatures:\n', X)

生成：

Class labels: [0 1 0]

Features:
 [[  0.    0.    1.    1.   10.1]
 [  0.    1.    0.    2.   13.5]
 [  1.    0.    0.    3.   15.3]]

B) Scikit-learn的`DictVectorizer`

from sklearn.feature_extraction import DictVectorizer
dvec = DictVectorizer(sparse=False)

X = dvec.fit_transform(df.transpose().to_dict().values())
X

产出：

array([[  0. ,   0. ,   1. ,   0. ,  10.1,   1. ],
       [  1. ,   0. ,   0. ,   1. ,  13.5,   2. ],
       [  0. ,   1. ,   0. ,   0. ,  15.3,   3. ]])

C) Pandas的`get_dummies`

pd.get_dummies(df)

使用pandas将分类值转换为二进制

A) 繁琐的方法

B) Scikit-learn的DictVectorizer

C) Pandas的get_dummies

B) Scikit-learn的`DictVectorizer`

C) Pandas的`get_dummies`