如何高效地合并这两个数据集?

3
所以我有两个数据列表,看起来像这样(缩短版):
[[1.0, 1403603100],
 [0.0, 1403603400],
 [2.0, 1403603700],
 [0.0, 1403604000],
 [None, 1403604300]]

[1.0, 1403603100],
[0.0, 1403603400],
[1.0, 1403603700],
[None, 1403604000],
[5.0, 1403604300]]

我想做的是合并它们,将每个数据集的第一个元素相加,如果任何一个计数器值为None,则将其设置为0.0。因此,上面的示例将变为:
[[2.0, 1403603100],
[0.0, 1403603400],
[3.0, 1403603700],
[0.0, 1403604000],
[0.0, 1403604300]]

这是我到目前为止想出来的,如果有点笨重请原谅。
def emit_datum(datapoints):
    for datum in datapoints:
        yield datum

def merge_data(data_set1, data_set2):

    assert len(data_set1) == len(data_set2)
    data_length = len(data_set1)

    data_gen1 = emit_datum(data_set1)
    data_gen2 = emit_datum(data_set2)

    merged_data = []

    for _ in range(data_length):

        datum1 = data_gen1.next()
        datum2 = data_gen2.next()

        if datum1[0] is None or datum2[0] is None:
            merged_data.append([0.0, datum1[1]])
            continue

        count = datum1[0] + datum2[0]
        merged_data.append([count, datum1[1]])

    return merged_data

我只能希望/假设我可以在itertools或collections中找到一些巧妙的方法?

你能分别发布两个数据集,以便可以轻松地复制和粘贴它们吗? - Moj
使用iter代替emit_datum - Niklas B.
使复制/粘贴数据更加容易 - Strings
在你的例子中,右侧的列总是以相同的顺序出现,这是我们可以假设为真的吗? - Jblasco
是的,它们实际上是时间戳。 - Strings
4个回答

1
基于标识符对数据进行“分组”,即收集与一个标识符(例如1403603400)相对应的所有值,然后将其加总。字典非常适合收集与标识符(键)相对应的所有值,并且类型为列表的defaultdict使此过程特别简单:
>>> data = [[1.0, 1403603100],  [1.0, 1403603100],
...  [0.0, 1403603400],  [0.0, 1403603400],
...  [2.0, 1403603700],  [1.0, 1403603700],
...  [0.0, 1403604000],  [None, 1403604000],
...  [None, 1403604300],  [5.0, 1403604300]]

>>> from collections import defaultdict
>>> d = defaultdict(list)
>>> for value, identifier in data:
...     d[identifier].append(value)
... 

现在我们已经对数据进行了排序,并可以有条件地对其进行求和:
>>> for identifier, valuelist in d.iteritems():
...     if not None in valuelist:
...         print identifier, sum(valuelist)
...     else:
...         print identifier, 0.0
... 
1403603400 0.0
1403603700 3.0
1403603100 2.0
1403604300 0.0
1403604000 0.0

简而言之,要获得您想要的列表,请执行以下步骤:
>>> [[i, sum(v)] if None not in v else [i, .0] for i, v in d.iteritems()]
[[1403603400, 0.0], [1403603700, 3.0], [1403603100, 2.0], [1403604300, 0.0], [1403604000, 0.0]]

那种方法要求数据集首先混合在一起,就像你在示例输入的第一个版本中所做的那样。

这两个数据集都有自己的列表,不确定如何重构您的解决方案以考虑到这一点。 - Strings
1
使用.extend()方法将一个列表与另一个列表合并成一个列表(你在第一个版本中写法不同,我只是复制了你的代码,现在已经改变)。 - Dr. Jan-Philip Gehrcke
除此之外,您需要更好地指定合并应该如何进行。在我的解决方案中,如果一个数据集与另一个数据集之间存在匹配,那么这并不重要。您是否只想合并匹配项并省略那些仅包含在列表中的数据点?如果是,则我的解决方案现在无法工作。如果不是,则将多个数据集区分开来是不必要的,您只有一个大型数据点集合。 - Dr. Jan-Philip Gehrcke

1
如果任何一个值为None,您只需要使用简单的循环将两个值都设为0.0。
 l1 = [1.0, 1403603100],
 [0.0, 1403603400],
 [2.0, 1403603700],
 [0.0, 1403604000],
 [None, 1403604300]]

l2 = [[1.0, 1403603100],
[0.0, 1403603400],
[1.0, 1403603700],
[None, 1403604000],
[5.0, 1403604300]]

final = []
assert len(l1)== len(l2)
for x, y in zip(l1, l2):
    if x[0] is  None or y[0] is  None:
        y[0] = 0.0
        final.append(y)
    else:
        final.append([x[0] + y[0], x[-1]])
print final

[[2.0, 1403603100], [0.0, 1403603400], [3.0, 1403603700], [0.0, 1403604000], [0.0, 1403604300]]


In [51]: %timeit merge_data(l1,l2)
100000 loops, best of 3: 5.76 µs per loop


 In [52]: %%timeit                 
   ....: final = []
   ....: assert len(l1)==len(l2)
   ....: for x, y in zip(l1, l2):
   ....:     if x[0] is  None or y[0] is None:
   ....:         y[0] = 0.0
   ....:         final.append(y)
   ....:     else:
   ....:         final.append([x[0] + y[0], x[-1]])
   ....: 
100000 loops, best of 3: 2.64 µs per loop

NumPy的解决方案可能更快,但这是目前最快和最简单的。干杯! - Strings
没问题,我做了一个编辑,我把它改成了if x[0] is None or y[0] is None - Padraic Cunningham

0
使用NumPy数组,您无需进行任何循环操作。如果您正在处理较大的数据集,这将使您的代码更快。
import numpy as np

In [68]: a = np.asarray(a)


In [69]: b = np.asarray(b)

In [71]: a_none_idx = np.equal(a,None)

In [72]: b_none_idx = np.equal(b,None)

In [73]: a[a_none_idx]=0

In [74]: b[b_none_idx]=0

In [76]: c = np.zeros(a.shape)

In [77]: c[:,0]= a[:,0] + b[:,0]

In [78]: c
Out[78]: 
array([[ 2.,  0.],
       [ 0.,  0.],
       [ 3.,  0.],
       [ 0.,  0.],
       [ 5.,  0.]])

In [79]: c[a_none_idx]=0

In [80]: c[b_none_idx]=0

In [81]: c[:,1] = a[:,1]

In [82]: c
Out[82]: 
array([[  2.00000000e+00,   1.40360310e+09],
       [  0.00000000e+00,   1.40360340e+09],
       [  3.00000000e+00,   1.40360370e+09],
       [  0.00000000e+00,   1.40360400e+09],
       [  0.00000000e+00,   1.40360430e+09]]

你应该提到np是numpy。很多人知道,但不是每个人都知道 :) - Dr. Jan-Philip Gehrcke

0
您可以使用zip,像这样:
def merge(list1, list2):
    returnlist = []
    for x, y in zip(list1, list2):
        if x[0] is None or y[0] is None:
            returnlist.append([0.0, x[1]])
        else:
            returnlist.append([x[0] + y[0], x[1]])

    return returnlist

zip 返回一个迭代器,其中包含每个输入列表中具有相同索引的元素的元组(即 (list1[0], list2[0])(list1[1], list2[1]) 等)


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接