从下面的数据框
我正在尝试构建这个结构:
df
开始:df = pd.DataFrame({'node':[1,2,3,3,3,5,5],'lang':['it','en','ar','ar','es','uz','es']})
我正在尝试构建这个结构:
node langs lfreq
0 1 [it] [1]
1 2 [en] [1]
2 3 [ar, es] [2, 1]
3 5 [uz, es] [1, 1]
基本上是通过列表将每个节点中的lang
元素和频率分组成一行。目前我做的事情:
# Getting the unique langs / node
a = df.groupby('node')['lang'].unique().reset_index(name='langs')
# Getting the frequency of lang / node
b = df.groupby('node')['lang'].value_counts().reset_index(name='lfreq')
c = b.groupby('node')['lfreq'].unique().reset_index(name='lfreq')
然后根据node
进行合并:
d = pd.merge(a,c,on='node')
经过这些操作,我得到的结果是:
node langs lfreq
0 1 [it] [1]
1 2 [en] [1]
2 3 [ar, es] [2, 1]
3 5 [uz, es] [1]
您可能已经注意到,最后一行只有一个 [1]
出现频率的两个 [uz,es]
,而不是预期的 [1,1]
列表。是否有一种更简洁的方法进行分析,以获得所需的输出?