Pandas - 如何在DataFrame中合并选定的行

Question

Pandas - 如何在DataFrame中合并选定的行

3

我一直在以以下形式读取一个巨大（5 GB）的gzip文件：

   User1  User2  W
0     11     12  1
1     12     11  2
2     13     14  1
3     14     13  2

这是关于IT技术的内容。该内容涉及基本的有向图表示法，用于表示用户之间带有特定权重W的连接。由于文件太大，我尝试通过networkx读取它，并构建了一个有向图，然后将其设置为无向图。但这花费了太多时间。因此，我考虑使用分析pandas数据帧来完成同样的工作。我想以以下形式返回先前的数据帧：

   User1  User2  W
0     11     12  3
1     13     14  3

在两个方向上的公共链接已合并为一个，其权重W为单个权重之和。任何帮助将不胜感激。

- Fabio Lamanna

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- JohnE · Accepted Answer

可能有更简洁的方法，但这个方法可行。主要技巧就是规范化数据，使得User1始终是较小的ID编号。然后您可以使用groupby，因为11,12和12,11现在被认为代表同一件事。

In [330]: df = pd.DataFrame({"User1":[11,12,13,14],"User2":[12,11,14,13],"W":[1,2,1,2]})

In [331]: df['U1'] = df[['User1','User2']].min(axis=1)
In [332]: df['U2'] = df[['User1','User2']].max(axis=1)

In [333]: df = df.drop(['User1','User2'],axis=1)

In [334]: df.groupby(['U1','U2'])['W'].sum()
Out[334]: 
U1  U2
11  12    3
13  14    3
Name: W, dtype: int64

为了更简洁的代码，避免创建新变量，你可以用以下方法替换中间3步骤：

In [400]: df.ix[df.User1>df.User2,['User1','User2']] = df.ix[df.User1>df.User2,['User2','User1']].values

请注意，列切换可能比您想象的要棘手，请参见此处：What is correct syntax to swap column values for selected rows in a pandas data frame using just one line? 就一般而言，使此代码快速运行将取决于您的数据。我认为上述代码不会像其他您可能执行的操作那样重要。例如，您的问题应该适合分块方法，其中您可以迭代代码的各个部分，并在每次通过时逐渐缩小它。在这种情况下，您需要考虑的主要问题是对数据进行排序，以尽量减少需要进行的传递次数。但是，采用这种方式应该能够在内存中完成所有工作。