使用 Pandas 比较两列带 NaN 值的数据并获取差异

4

I have a following dataframe:

case c1   c2
1    x    x
2    NaN  y
3    x    NaN
4    y    x
5    NaN  NaN 

我想获得一列名为 "匹配" 的列,该列将显示具有"c1"和"c2"值相等或不同的记录:
case c1   c2   match
1    x    x    True  
2    NaN  y    False
3    x    NaN  False
4    y    x    False
5    NaN  NaN  True 

我根据另一篇Stack Overflow的问题尝试了以下操作:比较两列并保留NaN值。然而,我无法正确处理第4和第5种情况。

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'case': [1, 2, 3, 4, 5],
    'c1': ['x', np.nan,'x','y', np.nan],
    'c2': ['x', 'y',np.nan,'x', np.nan],
})

cond1 = df['c1'] == df['c2']
cond2 = (df['c1'].isnull()) == (df['c2'].isnull())

df['c3'] = np.select([cond1, cond2], [True, True], False)

df
3个回答

4
使用isnaeq一起使用:
df.c1.eq(df.c2)|df.iloc[:, 1:].isna().all(1)
#or
df.c1.eq(df.c2)|df.loc[:, ['c1','c2']].isna().all(1)

能否为 df.iloc[:, 1:].isna().all(1) 提供实际的列名? - verkter

3
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'case': [1, 2, 3, 4, 5],
    'c1': ['x', np.nan,'x','y', np.nan],
    'c2': ['x', 'y',np.nan,'x', np.nan],
})


df['c3'] = df.apply(lambda row: True if str(row.c1) == str(row.c2) else False, axis=1)


print(df)

输出

   case   c1   c2     c3
0     1    x    x   True
1     2  NaN    y  False
2     3    x  NaN  False
3     4    y    x  False
4     5  NaN  NaN   True

2
使用fillna时,结合nuquine使用。
import numpy as np

df.fillna(np.inf)[['c1','c2']].nunique(1) < 2

或者使用带有选项dropna=Falsenunique

df[['c1','c2']].nunique(1, dropna=False) < 2

Out[13]:
0     True
1    False
2    False
3    False
4     True
dtype: bool

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接