在嵌套字典中查找所有键和键的键

3

我正在尝试查找Python中嵌套字典中数据的所有属性。某些对象可能在其键定义中具有多个级别。如果我们将其视为表结构,如何找到这样一个复杂嵌套数据的标题?以下是我的一些数据,以了解其外观:

{"MessageType": "SALES.HOLDCREATED", "Event": {"Id": "ZWbDoMKQw6HDjFzCo8KuwpNmwofCjl7Co8OPwpDCncOSXMOdccKTZVVWZWbCnA==", "RefInfo": {"TId": {"Id": "ZMKXwpbClsOhwpNiw5E="}, "UserId": {"Id": "wpzCksKWwpbCpMKTYsKeZMKZbA=="}, "SentUtc": "2013-04-28T16:59:48.6698042", "Source": 1}, "ItemId": {"Id": 116228}, "Quantity": 1, "ExpirationDate": "2013-04-29T", "Description": null}}
{"MessageType": "SALES.SALEITEMCREATED", "Event": {"Id": "ZWbDoMKQw6HDjFzCo8KuwpNmwofCjl7Co8OPwpDCncOSXMOdccKTwp3CiFZkZMKWwpfCpMKZ", "RefInfo": {"TId": {"Id": "ZGA="}, "UserId": {"Id": "ZMKj"}, "SentUtc": "2013-01-04T", "Source": 1}, "Code": {"Code": "074108235206"}, "Sku": {"Sku": "Con CS54"}}}
{"MessageType": "SALES.SALEITEMCREATED", "Event": {"Id": "ZWbDoMKQw6HDjFzCo8KuwpNmwofCjl7Co8OPwpDCncOSXMOdccKTZcKHVsKcwpjClsKXwqTCmQ==", "RefInfo": {"TId": {"Id": "ZGA="}, "UserId": {"Id": "ZMKj"}, "SentUtc": "2013-01-04T", "Source": 1}, "Code": {"Code": "4000000021"}, "Sku": {"Sku": "NFL-Wallet-MK-2201"}}}

由于这些数据是以Json格式存储的,因此我首先更改了格式并尝试找到关键字:

import json

data = []
with open("data.raw", "r") as f:
    for line in f:
        data.append(json.loads(line))

for lines in data:
    print(lines.keys())

但是它给我返回的是所有行的 dict_keys(['Event', 'MessageType'])。 对于我附加的这个数据,我需要的是一个像这样的列表:

'MessageType' 'Event_Id' 'Event_RefInfo_TId_Id'  'Event_RefInfo_UserId_Id' 'Event_RefInfo_SentUtc' 'Event_RefInfo_Source' 'Event_ItemId_Id' 'Event_ItemId_Quantity' 'Event_ItemId_ExpirationDate'     ...

数据非常庞大,我只需要找出我有哪些属性。
1个回答

1
你需要遍历嵌套的字典,当前的方法只能获取根字典的键。你可以使用以下生成器函数来查找键并递归遍历嵌套的字典:
import json 
from pprint import pprint

def find_keys(dct):
    for k, v in dct.items():
        if isinstance(v, dict):
            # traverse nested dict
            for x in find_keys(v):
                yield "{}_{}".format(k, x)
        else:
            yield k

假设您有一个从json对象派生出来的字典列表,您可以在每个字典中查找键并将它们放入一个集合中,以确保条目是唯一的:

s = set()
for d in json.loads(lst):
    s.update(find_keys(d))

pprint(s)

set(['Event_Code_Code',
     'Event_Description',
     'Event_ExpirationDate',
     'Event_Id',
     'Event_ItemId_Id',
     'Event_Quantity',
     'Event_RefInfo_SentUtc',
     'Event_RefInfo_Source',
     'Event_RefInfo_TId_Id',
     'Event_RefInfo_UserId_Id',
     'Event_Sku_Sku',
     'MessageType'])

非常感谢。这个函数完美地运行了。这里有一个问题... 当我将此方法应用于可以读入内存的数据大小时,一切都很好。当我想处理大数据时,出现了新问题。 - Mina
因为我必须使用readlines()来定义一个字符串列表,尽管我在打开文件时定义了缓冲区大小,但它会读取整个文件(而不仅仅是缓冲区大小)。如何只读取我在打开函数中定义的缓冲区大小的数据片段? - Mina

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接