将DataFrame列标题设置为MultiIndex

18

如何将现有的单层列DataFrame转换为具有分层索引(MultiIndex)的列?

示例数据框:

In [1]:
import pandas as pd
from pandas import Series, DataFrame

df = DataFrame(np.arange(6).reshape((2,3)),
               index=['A','B'],
               columns=['one','two','three'])
df
Out [1]:
   one  two  three
A    0    1      2
B    3    4      5

我认为reindex()应该有效,但是我得到了NaN:

In [2]:
df.reindex(columns=[['odd','even','odd'],df.columns])
Out [2]:
   odd  even    odd
   one   two  three
A  NaN   NaN    NaN
B  NaN   NaN    NaN

如果我使用DataFrame():

In [3]:
DataFrame(df,columns=[['odd','even','odd'],df.columns])
Out [3]:
   odd  even    odd
   one   two  three
A  NaN   NaN    NaN
B  NaN   NaN    NaN

这种方法实际上是有效的,如果我指定df.values:
In [4]:
DataFrame(df.values,index=df.index,columns=[['odd','even','odd'],df.columns])
Out [4]:
   odd  even    odd
   one   two  three
A    0     1      2
B    3     4      5

什么是正确的方法?为什么reindex()会产生NaN值?
1个回答

23

你离答案很近了,只需要将列直接设置成一个新的(相同大小的)类似索引的对象(如果它是列表的列表,则会转换为多级索引)。

In [8]: df
Out[8]: 
   one  two  three
A    0    1      2
B    3    4      5

In [10]: df.columns = [['odd','even','odd'],df.columns]

In [11]: df
Out[11]: 
   odd  even    odd
   one   two  three
A    0     1      2
B    3     4      5

重新索引将重新排序 / 过滤现有的索引。你得到所有nan值的原因是你在说,嘿,找到与这个新索引匹配的现有列; 没有匹配项,所以你得到了这个结果


如果你想使用numpy数组,则首先将其转换为列表:df.columns = list(a) - grabantot

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接