使用pandas数据框删除包含特定值的列和行

Question

使用pandas数据框删除包含特定值的列和行

7

我有一个Pandas数据框，看起来像这样（实际上要大得多）：

           a    b    c    d    e      f      g     h    i    j

       0|  0    1    2    3    4    -500   -500    5    6    7 
       1|  2    3    4    5    6    -500   -500    6    5    4
       2|-500 -500 -500 -500 -500   -500   -500  -500 -500 -500
       3|  3    4    5    2    1    -500   -500    5    3    6

我希望只删除包含-500（2）的整行和f、g两列。我的数据框是自动生成的，我不知道哪些列和行包含-500。

有没有什么方法可以做到这一点？

谢谢！

- Vivien

5

可能是基于列值在 Pandas 中删除 DataFrame 行的重复问题。 - Shihe Zhang

2个回答

1

这是一个使用 NumPy 的方法，专门针对效率进行了优化，可以通过 numpy.ix_ 快速选择多维数组中的交叉元素，适用于使用 open 1D 数组。

def delete_rows_cols(df):
    a = df.values
    mask = a!=-500
    m0 = mask.any(0)
    m1 = mask.any(1)
    return pd.DataFrame(a[np.ix_(m1,m0)], df.index[m1], df.columns[m0])

样例运行 -

In [255]: df
Out[255]: 
     a    b    c    d    e    f    g    h    i    j
0    0    1    2    3    4 -500 -500    5    6    7
1    2    3    4    5    6 -500 -500    6    5    4
2 -500 -500 -500 -500 -500 -500 -500 -500 -500 -500
3    3    4    5    2    1 -500 -500    5    3    6

In [256]: delete_rows_cols(df)
Out[256]: 
   a  b  c  d  e  h  i  j
0  0  1  2  3  4  5  6  7
1  2  3  4  5  6  6  5  4
3  3  4  5  2  1  5  3  6

运行时测试 -

# Setup input dataframe
In [257]: arr = np.random.randint(0,100,(1000,1000))

In [258]: arr[:,np.random.choice(1000,100,replace=0)] = -500

In [259]: arr[np.random.choice(1000,100,replace=0)] = -500

In [260]: df = pd.DataFrame(arr)

# @MaxU's pandas soln step-1
In [262]: mask = df.ne(-500)

In [263]: %timeit df.ne(-500)
1000 loops, best of 3: 606 µs per loop

# @MaxU's pandas soln step-2
In [264]: %timeit df.loc[mask.any(1), mask.any()]
10 loops, best of 3: 21.1 ms per loop

In [261]: %timeit delete_rows_cols(df)
100 loops, best of 3: 3.75 ms per loop

- Divakar

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MaxU - stand with Ukraine · Accepted Answer

In [76]: mask = df.eq(-500)

In [77]: df.loc[~mask.all(1), ~mask.all()]
Out[77]:
   a  b  c  d  e  h  i  j
0  0  1  2  3  4  5  6  7
1  2  3  4  5  6  6  5  4
3  3  4  5  2  1  5  3  6

或者

In [83]: mask = df.ne(-500)

In [85]: df = df.loc[mask.any(1), mask.any()]

In [86]: df
Out[86]:
   a  b  c  d  e  h  i  j
0  0  1  2  3  4  5  6  7
1  2  3  4  5  6  6  5  4
3  3  4  5  2  1  5  3  6

这是mask的外观:

In [87]: mask
Out[87]:
       a      b      c      d      e      f      g      h      i      j
0   True   True   True   True   True  False  False   True   True   True
1   True   True   True   True   True  False  False   True   True   True
2  False  False  False  False  False  False  False  False  False  False
3   True   True   True   True   True  False  False   True   True   True