将字典列表合并为一个字典,并将项目附加到列表中

3
def merge_dicts(list_of_dicts: list, missval=None):
    '''Merges a list of dicts, having common keys into a single dict
    with items appended to a list

    >>> d1 = {'a' : 1, 'b': 2, 'c': 3}
    >>> d2 = {'a':4, 'b':5 }
    >>> d3 = {'d': 5}
    >>> merge_dicts([d1, d2, d3], 'NA')
    {'a': [1, 4, 'NA'], 'b': [2, 5, 'NA'],
    'c': [3, 'NA', 'NA'], 'd': ['NA', 'NA', 5]}
    '''
    all_keys = []
    for d in list_of_dicts:
        for k in d.keys():
            if k not in all_keys:
                all_keys.append(k)

    merged = {}
    for k in all_keys:
        for d in list_of_dicts:
            try:
                merged[k].append(d.get(k, missval))
            except KeyError:
                merged[k] = [d.get(k)]

    return(merged)

函数的文档字符串已经很清楚了。有没有更有效率的方法来做这个,而不需要编写两个for循环?一个用于在所有字典中查找所有键,另一个用于创建合并后的字典?

1
@关闭投票者- 这是基于观点的吗?我认为这是一个相当清晰的问题。 - Chris_Rands
我是 Stack Overflow 的新手。在我的问题中,“基于观点”是什么意思?也许我应该重新表述我的问题,如“我希望我的代码既可读性好,又高效且最小化冗余”。 - Abhishek Bhatia
“更好的方式”主要是基于个人意见的。除非你使用的语言对你所尝试做的事情有官方规范的“最佳”惯用代码,否则不同的人对什么是“更好”的意见不同。 - SOFe
1
在 @SOFe 的评论基础上,进一步说明“更好”是以何种方式为前提的也许就足够了。看起来你可能正在寻找一种更高效的方法来完成这个任务——如果是这样,请编辑问题以反映这一点。 - EvilTak
我认为,stackoverflow应该有一个单独的标签,用于“是否有更好/更有效的方法”来解决这个问题?只有达到一定标准的顶级用户才能回答这些问题。这些问题可能会被暂停,并由中间用户进行审核。 - Abhishek Bhatia
3个回答

4

如果您不关心键的顺序,可以使用set创建键列表。您可以使用推导式来创建它。

对于第二部分,您可以使用字典推导式,并使用列表推导式创建每个列表:

def merge_dicts(list_of_dicts: list, missval=None):
    '''Merges a list of dicts, having common keys into a single dict
    with items appended to a list

    >>> d1 = {'a' : 1, 'b': 2, 'c': 3}
    >>> d2 = {'a':4, 'b':5 }
    >>> d3 = {'d': 5}
    >>> merge_dicts([d1, d2, d3], 'NA')
    {'a': [1, 4, 'NA'], 'b': [2, 5, 'NA'],
    'c': [3, 'NA', 'NA'], 'd': ['NA', 'NA', 5]}
    '''
    all_keys = {key for d in list_of_dicts for key in d.keys()}
    merged = {k: [d.get(k, missval) for d in list_of_dicts] for k in all_keys}

    return(merged)


d1 = {'a' : 1, 'b': 2, 'c': 3}
d2 = {'a':4, 'b':5 }
d3 = {'d': 5}
merge_dicts([d1, d2, d3], 'NA')


#{'a': [1, 4, 'NA'],
# 'b': [2, 5, 'NA'],
# 'c': [3, 'NA', 'NA'],
# 'd': ['NA', 'NA', 5]}

1
很好,我认为你可以省略.keys() - Chris_Rands
是的,因为在字典上进行迭代会迭代它的键。我对此犹豫了一下,最终还是保留了.keys()以使其更加明确... - Thierry Lathuille
这是一个优雅的解决方案,但对我来说仍然似乎效率低下:为什么需要all_keys?虽然这种创建all_keys的方式应该更有效率,所以它仍然是一个好的解决方案,并且在原始字典中没有的情况下拥有一个missval也很好。 - joanis
确实非常干净的推导。是的,我也总是在 .keys() 上迭代,因为 显示比隐式更好 - Abhishek Bhatia

2

下面是使用defaultdict的一个解决方案:

最初的回答:

from collections import defaultdict

def merge_dicts(list_of_dicts: list, missval=None):
    result = defaultdict(lambda: [missval] * len(list_of_dicts))
    for i, d in enumerate(list_of_dicts):
        for k, v in d.items():
            result[k][i] = v
    return dict(result)

d1 = {'a' : 1, 'b': 2, 'c': 3}
d2 = {'a':4, 'b':5 }
d3 = {'d': 5}
print(merge_dicts([d1, d2, d3], 'NA'))
# {'a': [1, 4, 'NA'], 'b': [2, 5, 'NA'], 'c': [3, 'NA', 'NA'], 'd': ['NA', 'NA', 5]}

我喜欢这个解决方案,因为它不需要统一的键列表,这完全是不必要的来完成所需的任务。 - joanis

0
如果你正在使用pandas,你可以使用字典来填充一个数据帧,并将其转换回字典:
pd.DataFrame([d1, d2, d3]).to_dict()
  {'a': {0: 1.0, 1: 4.0, 2: nan},
   'b': {0: 2.0, 1: 5.0, 2: nan},
   'c': {0: 3.0, 1: nan, 2: nan},
   'd': {0: nan, 1: nan, 2: 5.0}}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接