从pandas数据框中提取多行的非NaN值

Question

从pandas数据框中提取多行的非NaN值

6

我正在处理几个出租车数据集。我使用pandas将所有数据集连接成一个单独的数据帧。

我的数据帧看起来像这样。

                     675                       1039                #and rest 125 taxis
                     longitude     latitude    longitude    latitude
date
2008-02-02 13:31:21  116.56359  40.06489       Nan          Nan
2008-02-02 13:31:51  116.56486  40.06415       Nan          Nan
2008-02-02 13:32:21  116.56855  40.06352       116.58243    39.6313
2008-02-02 13:32:51  116.57127  40.06324       Nan          Nan
2008-02-02 13:33:21  116.57120  40.06328       116.55134    39.6313
2008-02-02 13:33:51  116.57121  40.06329       116.55126    39.6123
2008-02-02 13:34:21  Nan        Nan            116.55134    39.5123

其中675、1039是出租车的ID。总共有127辆出租车的纬度和经度对应。

我有几种方法可以提取行中的非空值。

df.ix[k,df.columns[np.isnan(df.irow(0))!=1]]
              (or)
df.irow(0)[np.isnan(df.irow(0))!=1]
              (or)
df.irow(0)[np.where(df.irow(0)[df.columns].notnull())[0]]

任何上述命令都会返回以下结果：

675   longitude    116.56359
      latitude     40.064890 
4549  longitude    116.34642
      latitude      39.96662
Name: 2008-02-02 13:31:21

现在我想从前几行（比如从第1行到第6行）中提取所有非空值。

我应该怎么做呢？

我可以使用循环来实现。但我希望有一种不使用循环的方法。

欢迎任何帮助和建议。谢谢！:)

- user2179627

3个回答

2

在0.11版本中（0.11rc1现已发布），使用.iloc先选择前6行，然后使用dropna删除任何带有nan的行非常容易（您还可以传递一些选项给dropna以精确控制要考虑哪些列）。

我意识到您想要1:6，但我在我的答案中做了0:6...

In [8]: df = DataFrame(randn(10,3),columns=list('ABC'),index=date_range('20130101',periods=10))

In [9]: df.ix[6,'A'] = np.nan

In [10]: df.ix[6,'B'] = np.nan

In [11]: df.ix[2,'A'] = np.nan

In [12]: df.ix[4,'B'] = np.nan

In [13]: df.iloc[0:6]
Out[13]: 
                   A         B         C
2013-01-01  0.442692 -0.109415 -0.038182
2013-01-02  1.217950  0.006681 -0.067752
2013-01-03       NaN -0.336814 -1.771431
2013-01-04 -0.655948  0.484234  1.313306
2013-01-05  0.096433       NaN  1.658917
2013-01-06  1.274731  1.909123 -0.289111

In [14]: df.iloc[0:6].dropna()
Out[14]: 
                   A         B         C
2013-01-01  0.442692 -0.109415 -0.038182
2013-01-02  1.217950  0.006681 -0.067752
2013-01-04 -0.655948  0.484234  1.313306
2013-01-06  1.274731  1.909123 -0.289111

- Jeff

不，那不是我想要的。在你的例子中，需要2013-01-03行的B列和C列。只有那些具有NaN值的列不应被考虑。但还是非常感谢你的建议。 - user2179627

如果您只想考虑列的子集，请尝试使用“dropna(subset=['C'])”。 - Jeff

0

使用Jeff的数据框：

import pandas as pd
from numpy.random import randn

df = pd.DataFrame(randn(10,3),columns=list('ABC'),index=pd.date_range('20130101',periods=10))
df.ix[6,'A'] = np.nan
df.ix[6,'B'] = np.nan
df.ix[2,'A'] = np.nan
df.ix[4,'B'] = np.nan

我们可以用一些数据框中不存在的数字来替换NaN值：

df = df.fillna(999)

如果你想保留非空值而不进行迭代，可以这样做：

df_nona = df.apply(lambda x: list(filter(lambda y: y != 999, x)))
df_na = df.apply(lambda x: list(filter(lambda y: y == 999, x)))

这种方法的问题在于结果是列表，因此您会失去有关索引的信息。

df_nona
A    [-1.9804955861, 0.146116306853, 0.359075672435...
B    [-1.01963803293, -0.829747654648, 0.6950551455...
C    [2.40122968044, 0.79395493777, 0.484201174184,...
dtype: object

另一个选项是：

df1 = df.dropna()
index_na  = df.index ^ df1.index
df_na = df[index_na]

在这种情况下，您不会丢失有关索引的信息，尽管这与先前的答案非常相似。

希望能帮到您！

- karen

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Dan Allan · Accepted Answer

df.ix[1:6].dropna(axis=1)

作为提醒，irow将在下一个pandas版本中被弃用。新的方法使用更加清晰，取代了它。 http://pandas.pydata.org/pandas-docs/dev/indexing.html#deprecations