高效地根据某个条件将 Pandas 数据框拆分成两个数据框

Question

高效地根据某个条件将 Pandas 数据框拆分成两个数据框

4

我想根据特定列的if条件将给定数据框拆分为两个数据框。目前我是通过两次遍历整个数据框来实现这一点。请建议一些改进方法。

 player   score
 dan       10
 dmitri    45
 darren    15
 xae12     40

就像在上面的数据框中，我希望将数据框分成两个部分，其中一个包含得分低于15的球员行，另一个包含其余行。我只想用一次迭代来完成这个操作。(如果答案适用于 n 个数据框，那会对我很有帮助) 。

- Paras Gupta

3个回答

2

IICU

使用布尔选择

m=df.score>15

Lessthan15=df[~m]
Morethan15=df[m]

超过15

少于15

- wwnde

谢谢回答...这个完美地解决了问题..但是我想问一下它在幕后是如何工作的..比如它是每行检查两次真或假吗？ - Paras Gupta

布尔索引用于选择数据。也就是说，true或false。例如，df.score>15如果被调用或打印，则会产生True或False，因此它可以作为布尔索引访问。我们还可以对数据框进行掩码处理。当我调用df[m]时，就是这样做的。 ~用于反转索引值。布尔索引也可以用于调用列值，例如df.loc[m,'score']。 - wwnde

这解释了很多事情...谢谢!! 我有一个问题...在这种情况下，我们是两次检查每一行的真假吗？ - Paras Gupta

0

试试这个：

df_less_than_15 = df[df['score'] < 15]
df_more_than_15 = df[df['score'] >= 15]

你可以对每个给定的数据框使用相同的东西。

- Hamid

嗨，谢谢回复...但是这会在数据框上循环两次..我想要在单次迭代中完成。 - Paras Gupta

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Anshul Vyas · Accepted Answer

有两种可能的方法可以根据您的需求选择数据框。在同一查询中进行时间分析，以便我们可以了解哪种方法更快。

1）使用两个不同的df

%%time

dataframe1  = dataframe[dataframe['score']>15]
dataframe2  = dataframe[dataframe['score']<=15]

输出结果为 Wall time: 4.06 ms

2) 使用布尔和取反概念：

%%time

a = dataframe.score>15

dataframe1 = dataframe[a]
dataframe2 = dataframe[~a]

这个查询的输出时间是Wall time: 0.02 ms

显然，第二种方法要快得多。