可能有更简洁的方法,但这个方法可行。主要技巧就是规范化数据,使得User1始终是较小的ID编号。然后您可以使用groupby
,因为11,12
和12,11
现在被认为代表同一件事。
In [330]: df = pd.DataFrame({"User1":[11,12,13,14],"User2":[12,11,14,13],"W":[1,2,1,2]})
In [331]: df['U1'] = df[['User1','User2']].min(axis=1)
In [332]: df['U2'] = df[['User1','User2']].max(axis=1)
In [333]: df = df.drop(['User1','User2'],axis=1)
In [334]: df.groupby(['U1','U2'])['W'].sum()
Out[334]:
U1 U2
11 12 3
13 14 3
Name: W, dtype: int64
为了更简洁的代码,避免创建新变量,你可以用以下方法替换中间3步骤:
In [400]: df.ix[df.User1>df.User2,['User1','User2']] = df.ix[df.User1>df.User2,['User2','User1']].values
请注意,列切换可能比您想象的要棘手,请参见此处:
What is correct syntax to swap column values for selected rows in a pandas data frame using just one line?
就一般而言,使此代码快速运行将取决于您的数据。我认为上述代码不会像其他您可能执行的操作那样重要。例如,您的问题应该适合分块方法,其中您可以迭代代码的各个部分,并在每次通过时逐渐缩小它。在这种情况下,您需要考虑的主要问题是对数据进行排序,以尽量减少需要进行的传递次数。但是,采用这种方式应该能够在内存中完成所有工作。