我有一个数据框需要进行分组,然后再次子分组。从子分组中,我需要返回子分组以及一个列的唯一值。
df = pandas.DataFrame({'country': pandas.Series(['US', 'Canada', 'US', 'US']),
'gender': pandas.Series(['male', 'female', 'male', 'female']),
'industry': pandas.Series(['real estate', 'shipping', 'telecom', 'real estate']),
'income': pandas.Series([1, 2, 3, 4])})
def subgroup(g):
return g.groupby(['gender'])
s = df.groupby(['country']).apply(subgroup)
从 s 中,我应该如何计算“行业”这个字段的唯一值,以及它是按哪个“性别”分组的?
--------------------------------------------
| US | male | [real estate, telecom] |
| |----------------------------------
| | female | [real estate] |
--------------------------------------------
| Canada | female | [shipping] |
--------------------------------------------