如何在不使用循环的情况下将多个Pandas数据框列更改为分类类型

7

我是一名帮助翻译的助手。

我有一个数据框,我想将其中几列从'type'为'object'改为'category'。

我可以同时更改多个浮点数列,

dftest[['col3', 'col4', 'col5', 'col6']] = \
    dftest[['col3', 'col4', 'col5', 'col6']].astype(float)

对于“category”,我不能像之前那样一次性完成,我需要逐个完成(或者像这里的循环一样)。

for col in ['col1', 'col2']:
    dftest[col] = dftest[col].astype('category')

问题:是否有一种像“float”示例中一样一次性更改所有所需列的方法?

如果我尝试同时更改多个列,会出现以下情况:

dftest[['col1','col2']] = dftest[['col1','col2']].astype('category')
## NotImplementedError: > 1 ndim Categorical are not supported at this time

我当前的工作测试代码:

import numpy as np
import pandas as pd 

factors= np.array([
        ['a', 'xx'],
        ['a', 'xx'],
        ['ab', 'xx'],
        ['ab', 'xx'],
        ['ab', 'yy'],
        ['cc', 'yy'],
        ['cc', 'zz'],
        ['d', 'zz'],
        ['d', 'zz'],
        ['g', 'zz'] 
        ])

values = np.random.randn(10,4).round(2)

dftest = pd.DataFrame(np.hstack([factors,values]), 
                  columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6'])

#dftest[['col1','col2']] = dftest[['col1','col2']].astype('category')
## NotImplementedError: > 1 ndim Categorical are not supported at this time

## it works with individual astype
#dftest['col2'] = dftest['col2'].astype('category')
#dftest['col1'] = dftest['col1'].astype('category')

print(dftest)

## doing a loop
for col in ['col1', 'col2']:
    dftest[col] = dftest[col].astype('category')


dftest[['col3', 'col4', 'col5', 'col6']] = \
    dftest[['col3', 'col4', 'col5', 'col6']].astype(float)

dftest.dtypes

输出:

col1    category
col2    category
col3     float64
col4     float64
col5     float64
col6     float64
dtype: object

== [更新] ==

现在我知道了这个技巧,使用循环已经不是问题了。但我提问的原因是我想要学习/理解为什么需要对“category”进行循环而不是对float进行循环,如果没有其他方法。


3
出于好奇,这有什么意义?速度吗? - IanS
@IanS,请看我的更新。 - Pablo Marin-Garcia
1
“Not implemented” 通常意味着它计划在未来版本中实现。分类变量是相对较新的,因此我们可以期望 .astype('category) 在未来能够适用于多个列。 - ayhan
FYI:DataFrame.astype('category')已经实现并可用。 - haku
2个回答

3

dftest[['col1','col2']].astype('category') 的结果并不清楚,即生成的列是否应该共享同一个类别。

通过循环遍历各列,每列将有单独的一组类别。(我认为这是您的例子中期望的结果。)

另一方面,.astype(float) 的处理方式不同:它将底层值展开成一个1d数组,转换为浮点数,然后将其重新塑造回原始形状。这种方法可能比仅迭代列更快。您可以使用更高级的函数来模拟此行为以进行category的转换:

result = dftest[['col1', 'col2']].stack().astype('category').unstack()

但是,然后你会得到一个由两个列共享的单个类别集:
result['col1']
Out[36]: 
0     a
1     a
2    ab
3    ab
4    ab
5    cc
6    cc
7     d
8     d
9     g
Name: col1, dtype: category
Categories (8, object): [a < ab < cc < d < g < xx < yy < zz]

谢谢@ptrj,我现在明白问题不在于将其转换为另一种类型,而是如何处理分类列的级别。我没有考虑到这一点,但现在对我来说非常合理。感谢您的启示。 - Pablo Marin-Garcia

1

you can do it this way:

In [99]: pd.concat([dftest[['col1', 'col2']].apply(lambda x: x.astype('category')), dftest.ix[:, 'col3':].astype('float')], axis=1)
Out[99]:
  col1 col2  col3  col4  col5  col6
0    a   xx  0.30  2.28  0.84  0.31
1    a   xx -0.13  2.04  2.62  0.49
2   ab   xx -0.34 -0.32 -1.87  1.49
3   ab   xx -1.18 -0.57 -0.57  0.87
4   ab   yy  0.66  0.65  0.96  0.07
5   cc   yy  0.88  2.43  0.76  1.93
6   cc   zz  1.81 -1.40 -2.29 -0.13
7    d   zz -0.05  0.60 -0.78 -0.28
8    d   zz -0.36  0.98  0.23 -0.17
9    g   zz -1.31 -0.84  0.02  0.47

In [100]: pd.concat([dftest[['col1', 'col2']].apply(lambda x: x.astype('category')), dftest.ix[:, 'col3':].astype('float')], axis=1).dtypes
Out[100]:
col1    category
col2    category
col3     float64
col4     float64
col5     float64
col6     float64
dtype: object

但它不会更快,因为 apply() 方法在底层使用循环。

谢谢@MaxU,但问题的目的更多是关于“为什么我不能像在float中那样将类型更改为类别几列?”我想知道这是否是我pandas知识的限制。请参见更新。 - Pablo Marin-Garcia

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接