Pandas:将带有MultiIndex的DataFrame转换为字典

3

又是一个新手pandas的问题。我想以一种不同于DataFrame.to_dict()函数提供的方式将DataFrame转换为字典。 举个例子来说明:

df = pd.DataFrame({'co':['DE','DE','FR','FR'],
                   'tp':['Lake','Forest','Lake','Forest'],
                   'area':[10,20,30,40],
                   'count':[7,5,2,3]})
df = df.set_index(['co','tp'])

之前:

           area  count
co tp
DE Lake      10      7
   Forest    20      5
FR Lake      30      2
   Forest    40      3

之后:

{('DE', 'Lake', 'area'): 10,
 ('DE', 'Lake', 'count'): 7,
 ('DE', 'Forest', 'area'): 20,
 ...
 ('FR', 'Forest', 'count'): 3 }

字典键应该是元组,由索引行和列标题组成,而字典值应该是个别的DataFrame值。对于上面的例子,我找到了这个表达式:

after = {(r[0],r[1],c):df.ix[r,c] for c in df.columns for r in df.index}

如何将此代码推广到适用于N级别的MultiIndices(而不是2级)?

答案

感谢DSM的回答,我发现我实际上只需要使用元组连接r + (c,),我的二维循环变成了N维:

after = {r + (c,): df.ix[r,c] for c in df.columns for r in df.index}
2个回答

7
如何考虑以下内容:
>>> df
           area  count
co tp                 
DE Lake      10      7
   Forest    20      5
FR Lake      30      2
   Forest    40      3
>>> after = {r + (k,): v for r, kv in df.iterrows() for k,v in kv.to_dict().items()}
>>> import pprint
>>> pprint.pprint(after)
{('DE', 'Forest', 'area'): 20,
 ('DE', 'Forest', 'count'): 5,
 ('DE', 'Lake', 'area'): 10,
 ('DE', 'Lake', 'count'): 7,
 ('FR', 'Forest', 'area'): 40,
 ('FR', 'Forest', 'count'): 3,
 ('FR', 'Lake', 'area'): 30,
 ('FR', 'Lake', 'count'): 2}

谢谢,r +(k,)的想法确实很重要。有了它,我甚至可以使用原始的索引/列循环,这看起来更容易阅读。 - ojdo

3
df.stack().to_dict()

输出:

{('DE', 'Lake', 'area'): 10,
 ('DE', 'Lake', 'count'): 7,
 ('DE', 'Forest', 'area'): 20,
 ('DE', 'Forest', 'count'): 5,
 ('FR', 'Lake', 'area'): 30,
 ('FR', 'Lake', 'count'): 2,
 ('FR', 'Forest', 'area'): 40,
 ('FR', 'Forest', 'count'): 3}

哇,真是尴尬。那个解决方案早就存在了。感谢指出。 - ojdo

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接