在字典列表中按类别获取最大值

4

我有一个字典列表,大致长这样:

example = [
    {'id': 1, 'foo': 10, 'seq': 1, 'val':  0, 'sum':  0} ,
    {'id': 1, 'foo': 94, 'seq': 2, 'val':  5, 'sum':  5} ,
    {'id': 1, 'foo': 32, 'seq': 3, 'val': 32, 'sum': 37} ,
    {'id': 2, 'foo': 10, 'seq': 1, 'val':  0, 'sum':  0} ,
    {'id': 2, 'foo': 43, 'seq': 2, 'val':  3, 'sum':  3} ,
    {'id': 2, 'foo': 71, 'seq': 3, 'val': 14, 'sum': 17} ,
    {'id': 2, 'foo': 32, 'seq': 4, 'val':  6, 'sum': 23} ,
    {'id': 3, 'foo': 26, 'seq': 1, 'val':  0, 'sum':  0} ,
    {'id': 3, 'foo': 38, 'seq': 2, 'val':  8, 'sum':  8}
]

我需要从列表中获取三个关键信息:
1)我需要确定列表中每个“id”的最高'seq'值。
2)使用第(1)步的结果,我需要比较每个最高'seq'值的'sum'值与其他最高'seq'值,并确定哪个'seq'值具有最低的'sum'。
3)这个过程的复杂性在于我还需要根据'foo'值进行比较,因此(2)中的比较仅在第一个和最后一个'foo'值相同的情况下比较'sum'值。
因此,在示例列表中,我希望将'id'值1和2互相比较,因为它们以“foo”10开头并以“foo”32结尾。
以下是我的伪代码,希望能达到我要做的事情:
def getMinId(foo1, foo2, exampleList):
    # first limit exampleList to only ids that match the foos
    # next find the minimum 'sum' among the remaining ids

期望的最终输出可能类似于:
{(10,32): 23, (26,38): 8}

我可以通过对列表进行大量迭代来强制执行此操作,但我想知道是否有更有效的方法。真正重要的结果是找到每个'foo'对的最小'sum'值,因此如果有更好的思考方式,请忽略我在这里列出的步骤。


{10: 0, 26: 0, 32: 23, 38: 8, 43: 3, 71: 17, 94: 5} 是期望的输出吗? - ig-melnyk
不太对。我会修改问题,以获得更清晰的期望输出。 - spencerrecneps
1个回答

0
这对于你的例子是有效的(在Python 2.7中)。一定要在更大的数据集上进行测试。

maxvaldict.py

example = [
    {'id': 1, 'foo': 10, 'seq': 1, 'val':  0, 'sum':  0},
    {'id': 1, 'foo': 94, 'seq': 2, 'val':  5, 'sum':  5},
    {'id': 1, 'foo': 32, 'seq': 3, 'val': 32, 'sum': 37},
    {'id': 2, 'foo': 10, 'seq': 1, 'val':  0, 'sum':  0},
    {'id': 2, 'foo': 43, 'seq': 2, 'val':  3, 'sum':  3},
    {'id': 2, 'foo': 71, 'seq': 3, 'val': 14, 'sum': 17},
    {'id': 2, 'foo': 32, 'seq': 4, 'val':  6, 'sum': 23},
    {'id': 3, 'foo': 26, 'seq': 1, 'val':  0, 'sum':  0},
    {'id': 3, 'foo': 38, 'seq': 2, 'val':  8, 'sum':  8}
]

# Dictionary identifying highest 'seq' value for each 'id' in the list.
# {id: [seq, sum, first_foo, last_foo]}
maxiddict = {}
for rowdict in example:
    if not maxiddict.get(rowdict['id']) or rowdict['seq'] > maxiddict.get(rowdict['id'])[0]:
        if not maxiddict.get(rowdict['id']):
            maxiddict[rowdict['id']] = [rowdict['seq'], rowdict['sum'], rowdict['foo'], rowdict['foo']]
        else:
            first_foo = maxiddict[rowdict['id']][2]
            maxiddict[rowdict['id']] = [rowdict['seq'], rowdict['sum'], first_foo, rowdict['foo']]

# Dictionary of groups of maxiddicts grouped by a combined key of first_foo, last_foo
# {'first_foo, last_foo': [{id: [seq, sum, first_foo, last_foo]}]}
groupdict = {}
for k, v in maxiddict.items():
    key = ', '.join([str(v[2]), str(v[3])])
    if not groupdict.get(key):
        groupdict[key] = [dict([(k, v)])]
    else:
        groupdict[key].append(dict([(k, v)]))

# Dictionary of lowest sums of maxidicts entries grouped by combined key of first_foo, last_foo
lowestsumsdict = {}
for groupkey, groupvallist in groupdict.items():
    minsum = min([entry.itervalues().next()[1] for entry in groupvallist])
    lowestsumsdict[groupkey] = minsum

print lowestsumsdict

输出:

(maxvaldict)macbook:maxvaldict joeyoung$ python maxvaldict.py 
{'26, 38': 8, '10, 32': 23}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接