如何将数据框转换为集合字典？

Question

如何将数据框转换为集合字典？

3

我有一个数据框（dataframe），想要将由set组成的dictionary转换成它。

具体来说，我的数据框和我想要的结果如下：

    month   date
0   JAN       1
1   JAN       1
2   JAN       1
3   FEB       2
4   FEB       2
5   FEB       3
6   MAR       1
7   MAR       2
8   MAR       3

我的目标：

dict = {'JAN' : {1}, 'FEB' : {2,3}, 'MAR' : {1,2,3}}

我也写了下面的代码，但是不确定它是否适合。实际上，数据很大，所以我想知道有没有什么提示或其他有效（更快）的方法来处理它。

import pandas as pd
df = pd.DataFrame({'month' : ['JAN','JAN','JAN','FEB','FEB','FEB','MAR','MAR','MAR'],
                    'date'  : [1, 1, 1, 1, 2, 3, 1, 2, 3]})
df_list = df.values.tolist()

monthSet = ['JAN','FEB','MAR']
inst_id_dict = {}
for i in df_list:
    monStr = i[0]
    if monStr in monthSet:
        inst_id = i[1]
        inst_id_dict.setdefault(monStr, set([])).add(inst_id)

- user3685918

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cs95 · Accepted Answer

让我们尝试按“月份”列分组，然后通过GroupBy.unique进行聚合：

df.groupby('month', sort=False)['date'].unique().map(set).to_dict()
#  {'JAN': [1], 'FEB': [2, 3], 'MAR': [1, 2, 3]}

或者，如果您更喜欢使用集合字典，请使用Groupby.agg：

df.groupby('month', sort=False)['date'].agg(set).to_dict()
# {'JAN': {1}, 'FEB': {2, 3}, 'MAR': {1, 2, 3}}

另一个想法是迭代构建字典（不用担心，尽管使用循环，但这很可能比使用groupby选项更快）：

out = {}
for m, d in df.drop_duplicates(['month', 'date']).to_numpy():
     out.setdefault(m, set()).add(d)

out
# {'JAN': {1}, 'FEB': {2, 3}, 'MAR': {1, 2, 3}}