我能否将一个包含更多嵌套字典列表值的深度嵌套Python字典压平？

Question

我能否将一个包含更多嵌套字典列表值的深度嵌套Python字典压平？

4

我正在处理一个大型的xml文件，试图提取键值对。由于该文件中包含非常敏感的信息，所以无法分享。我最初使用了xml库，但是在经历数小时的挫折后，我发现了xmltodict库。我使用这个库将我的xml转换成了字典（相对于xml更熟悉）。

import xmltodict

# convert xml to dictionary
dict_nested = xmltodict.parse(str_xml)

现在xml已经变成了一个字典，我想要对其进行扁平化处理，因为它有很多层级（我不知道有多少层级），同时创建键名来帮助我追踪到相应值的路径。因此，我尝试了以下代码：

from flatten_dict import flatten

# flatten dict_nested 
dict_flat = flatten(dict_nested)

结果可能看起来像这样，但有更多的层级：

{'ID': '123',
 'info': [{'breed':'collie'}, 
          {'fur': [{'short':'no'}, 
                   {'color':[{'black':'no'},
                             {'brown':'yes'}]}]}]}

我的键是元组，显示层的路径。值要么是字符串（即我正在寻找的最终结果），要么是类型为OrderedDict的列表。

由于每个列表中的每个字典都需要被展开，而且我不知道它有多深，我正在尝试找出一种程序化展开所有字典的方法，直到所有键都对应一个单一的值（即不是列表或字典）。

理想情况下，输出应该像这样：

{'ID':'123',
 'info_breed':'collie',
 'info_fur_short':'no',
 'info_fur_color_black':'no',
 'info_fur_color_brown':'yes'}

非常抱歉，由于涉及敏感信息，我无法分享更多的输出内容。

- Aaron England

你能发布你的 dict_nested 数据吗？ - kederrac

dict_nested看起来与dict_flat相似，我认为将dict_nested展平可能是不必要的。 - Aaron England

2个回答

2

另一种方法是创建一个生成器，产生键/值元组。您可以将其直接传递给字典构造函数：

d = {'ID': '123',
     'info': [{'breed':'collie'}, 
          {'fur': [{'short':'no'}, 
               {'color':[{'black':'no'},
                         {'brown':'yes'}]}]}]}

def flatten(obj, prefix=[]):
    if isinstance(obj, str):
        yield ('_'.join(prefix), obj)

    elif isinstance(obj, list):
        for o in obj:
            yield from flatten(o, prefix) 
    else:
        for k, v in obj.items():
            yield from flatten(v, prefix + [k])


dict(flatten(d))

结果：

{'ID': '123',
 'info_breed': 'collie',
 'info_fur_short': 'no',
 'info_fur_color_black': 'no',
 'info_fur_color_brown': 'yes'}

这样做避免了在函数中处理字典的操作，根据您对事物喜好的不同，这可能更容易理解。

- Mark

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- kederrac · Accepted Answer

你可以通过递归的方式来处理字典中的值，这些值可以是字符串或包含其他字典的列表:

dict_flat = {'ID': '123',
 'info': [{'breed':'collie'}, 
          {'fur': [{'short':'no'}, 
                   {'color':[{'black':'no'},
                             {'brown':'yes'}]}]}]}

def my_flatten(dict_flat, key_prefix=None):

    result = {}
    for k, v in dict_flat.items():
        key = f'{key_prefix}_{k}' if key_prefix is not None else k
        if isinstance(v, list):
            for d in v:
                result.update(my_flatten(d, key))
        else:
            result[key] = v
    return result

my_flatten(dict_flat)

输出：

{'ID': '123',
 'info_breed': 'collie',
 'info_fur_short': 'no',
 'info_fur_color_black': 'no',
 'info_fur_color_brown': 'yes'}