我能使用pandas.dataframe.isin()函数并带有数值容差参数吗？

Question

我能使用pandas.dataframe.isin()函数并带有数值容差参数吗？

pythonpandascomparisonfloating-accuracycomparison-operators

8

我事先查看了以下帖子。是否有一种方法可以使用DataFrame.isin()与近似因子或容差值一起使用？还是有其他的方法可以实现这个功能？

如果列中的值在一个设置的值列表中，则过滤数据框行

使用值列表从pandas数据框中选择行

例如：

df = DataFrame({'A' : [5,6,3.3,4], 'B' : [1,2,3.2, 5]})

In : df
Out:
   A    B
0  5    1
1  6    2
2  3.3  3.2
3  4    5  

df[df['A'].isin([3, 6], tol=.5)]

In : df
Out:
   A    B
1  6    2
2  3.3  3.2

- webmaker

在这种情况下，您可以创建 A 和 B 的副本，将其四舍五入到最近的整数，然后使用它们来识别原始列中的有效索引值。换句话说，您可以在数据侧实现公差，而不是在函数侧实现。 - Sohier Dane

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ayhan · Accepted Answer

你可以使用numpy的isclose函数进行类似的操作：

df[np.isclose(df['A'].values[:, None], [3, 6], atol=.5).any(axis=1)]
Out: 
     A    B
1  6.0  2.0
2  3.3  3.2

np.isclose 返回以下内容：

np.isclose(df['A'].values[:, None], [3, 6], atol=.5)
Out: 
array([[False, False],
       [False,  True],
       [ True, False],
       [False, False]], dtype=bool)

这是对 df['A'] 的元素和 [3, 6] 进行成对比较的（这就是为什么我们需要 df['A'].values[: None] - 用于广播）。由于您要查找它是否接近列表中的任何一个值，因此我们在结尾处调用 .any(axis=1)。

对于多列数据，只需稍微调整一下切片：

mask = np.isclose(df[['A', 'B']].values[:, :, None], [3, 6], atol=0.5).any(axis=(1, 2))
mask
Out: array([False,  True,  True, False], dtype=bool)

你可以使用这个掩码来切片DataFrame（即 df[mask]）。

如果你想将df['A']和df['B'](以及可能的其他列)与不同的向量进行比较，你可以创建两个不同的掩码：

mask1 = np.isclose(df['A'].values[:, None], [1, 2, 3], atol=.5).any(axis=1)
mask2 = np.isclose(df['B'].values[:, None], [4, 5], atol=.5).any(axis=1)
mask3 = ...

然后切片：

df[mask1 & mask2]  # or df[mask1 & mask2 & mask3 & ...]