在pandas中将宽格式转换为长格式

Question

在pandas中将宽格式转换为长格式

49

假设我在pandas中有以下数据框：

         AA  BB  CC
 date
05/03     1   2   3
06/03     4   5   6
07/03     7   8   9
08/03     5   7   1

我想将它转换为以下内容：

AA  05/03  1
AA  06/03  4
AA  07/03  7
AA  08/03  5
BB  05/03  2
BB  06/03  5
BB  07/03  8
BB  08/03  7
CC  05/03  3
CC  06/03  6
CC  07/03  9
CC  08/03  1

我该怎么做？

将数据从宽格式转换为长格式的原因是，下一阶段我想根据日期和初始列名（AA、BB、CC）将此数据框与另一个数据框合并。

- km1234

1

如果你真的想要宽转长，而不仅仅是融合，请参见：pandas.wide_to_long。 - BeRT2me

3个回答

40

更新

正如George Liu在另一个回答中所示，pd.melt是解决此问题的惯用、灵活和快速方法。不要使用unstack。

unstack返回具有多级索引的系列：

    In [38]: df.unstack()
    Out[38]: 
        date 
    AA  05/03    1
        06/03    4
        07/03    7
        08/03    5
    BB  05/03    2
        06/03    5
        07/03    8
        08/03    7
    CC  05/03    3
        06/03    6
        07/03    9
        08/03    1
    dtype: int64

您可以对返回的Series调用reset_index：

In [39]: df.unstack().reset_index() 
Out[39]:        
        
    level_0 date    0
0   AA      05-03   1
1   AA      06-03   4
2   AA      07-03   7
3   AA      08-03   5
4   BB      05-03   2
5   BB      06-03   5
6   BB      07-03   8
7   BB      08-03   7
8   CC      05-03   3
9   CC      06-03   6
10  CC      07-03   9
11  CC      08-03   1

或者使用多级索引构造一个数据框：

In [40]: pd.DataFrame(df.unstack())     
Out[40]:        
        
            0
    date    
AA  05-03   1
    06-03   4
    07-03   7
    08-03   5
BB  05-03   2
    06-03   5
    07-03   8
    08-03   7
CC  05-03   3
    06-03   6
    07-03   9
    08-03   1

- ayhan

我们需要参考哪种方法来处理数百万条数据的融合或堆叠？哪种方法更快？ - Naveen Srikanth

1

对于我的虚拟测试 dfs（42列，1k/100k/1M行），.melt 比 .unstack.reset_index() 快了8倍。 - Andre S.

1

@AndreS。没错，我已经更新了答案。 - ayhan

0

除了unstack和melt，在这里也可以使用stack。

df1 = df.stack().reset_index(name='value')

# change "weird" column label
df1 = df.stack().reset_index(name='value').rename(columns={'level_1': 'variable'})

melt、stack和unstack都是非常快的方法，因此在正常情况下，运行时差异几乎不会有影响。如果运行时间是一个问题，也可以使用基于numpy的解决方案（比melt快约50%）。其思想是将框架中的值简单地展平为1D数组，并重复索引和列标签。

df1 = pd.DataFrame({ 'variable': np.tile(df.columns, len(df)), 'date': df.index.repeat(df.shape[1]), 'value': df.values.ravel()})

如果不需要将列标签作为单独的列，那么另一个非常快的函数是pd.lreshape。

df1 = pd.lreshape(df.reset_index(), {'value': ['AA', 'BB', 'CC']})

- cottontail

如果我不只是想要“日期”作为索引或参考，而是有多个列，会怎样呢？ - PM0087

@PM0087 你是在问如何将多级索引的数据帧从宽格式转换为长格式吗？还是在问关于从长格式转换为宽格式或其他完全不同的问题呢？ - cottontail

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- George Liu · Accepted Answer

使用pandas.melt 或 pandas.DataFrame.melt 将数据从宽格式转换为长格式：

df = pd.DataFrame({
    'date' : ['05/03', '06/03', '07/03', '08/03'],
    'AA' : [1, 4, 7, 5],
    'BB' : [2, 5, 8, 7],
    'CC' : [3, 6, 9, 1]
}).set_index('date')
df

        AA  BB  CC
date            
05/03   1   2   3
06/03   4   5   6
07/03   7   8   9
08/03   5   7   1

要进行转换，我们只需要重置索引，然后进行融合：

df = df.reset_index()
pd.melt(df, id_vars='date', value_vars=['AA', 'BB', 'CC'])

.melt之后使用.reset_index，无需指定value_vars。

dfm = df.melt(ignore_index=False).reset_index()

最终结果 - 两个选项

     date variable  value
0   05/03       AA      1
1   06/03       AA      4
2   07/03       AA      7
3   08/03       AA      5
4   05/03       BB      2
5   06/03       BB      5
6   07/03       BB      8
7   08/03       BB      7
8   05/03       CC      3
9   06/03       CC      6
10  07/03       CC      9
11  08/03       CC      1