Pandas：删除日期格式不符合指定格式的行。

Question

Pandas：删除日期格式不符合指定格式的行。

pythondatedatetimepandas

8

在我的数据集中，有一个日期列，其中的数据格式混合不一。

- 一些行只有YYYY（例如2009）。 - 其他行具有MMM-YY（例如Jan-08）。 - 还有一些行具有完整的日期MM/DD/YYYY（例如01/15/2006）。

我该如何删除不符合MM/DD/YYYY格式的条目？我不太确定从哪里开始。

下面，我提供了数据的.head()作为一个dict。

{'Collection Date': {0: '2001',
  1: '2002',
  2: '2006',
  3: '2/19/2006',
  4: '2/28/2006'},
 'Complete Genome': {0: 'No', 1: 'No', 2: 'No', 3: 'No', 4: 'No'},
 'Country': {0: 'Egypt', 1: 'Egypt', 2: 'Egypt', 3: 'Egypt', 4: 'Egypt'},
 'Flu Season': {0: '-N/A-', 1: '-N/A-', 2: '-N/A-', 3: '-N/A-', 4: '-N/A-'},
 'Host Species': {0: 'IRD:Human',
  1: 'IRD:Human',
  2: 'IRD:Bird/Avian',
  3: 'IRD:Chicken/Avian',
  4: 'IRD:Avian'},
 'Protein Name': {0: 'NA', 1: 'NA', 2: 'NA', 3: 'NA', 4: 'HA'},
 'Segment': {0: 6, 1: 6, 2: 6, 3: 6, 4: 4},
 'Segment Length': {0: 1428, 1: 1449, 2: 1441, 3: 1363, 4: 1707},
 'Sequence Accession': {0: 'AJ457944',
  1: 'AJ457943',
  2: 'GU050304',
  3: 'GQ184251',
  4: 'KF178948'},
 'State/Province': {0: '-N/A-',
  1: '-N/A-',
  2: '-N/A-',
  3: '-N/A-',
  4: '-N/A-'},
 'Strain Name': {0: '(A/Egypt/84/2001(H1N2))',
  1: '(A/Egypt/96/2002(H1N2))',
  2: 'A/avian/Egypt/920431/2006(H9N2)',
  3: 'A/chicken/Egypt/06207-NLQP/2006(H5N1)',
  4: 'A/chicken/Egypt/0626/2006'},
 'Subtype': {0: 'H1N2', 1: 'H1N2', 2: 'H9N2', 3: 'H5N1', 4: 'H5N1'}}

- ericmjl

我可以尝试的另一件事是，如果我只删除不符合“MM/DD/YYYY”格式的数据，这样做是否可行？我还将修改问题。 - ericmjl

@ericmjl 是的，你可以这样做，再次使用正则表达式。 - EdChum

1

@ericmjl 我刚刚阅读了你的新需求，并更新了我的答案，以过滤掉不是 MM/DD/YYYY 格式的日期，在你的情况下，使用字符串长度比混乱的正则表达式字符串更容易和简单。 - EdChum

非常感谢，@EdChum，感谢您的帮助！ - ericmjl

@ericmjl 添加了正则表达式字符串以完善。 - EdChum

显示剩余3条评论

2个回答

8

你可以使用 pd.to_datetime 函数并加上选项 errors='coerce' 将无效日期转换为 NaT，再利用 dropna() 过滤掉 NaT。例如：

>>> df = pd.DataFrame({'date':['01/03/1987', '2003', 'Jan-08', '31/01/2010', '2/13/2016'],'value':range(5)})
>>> df
         date  value
0  01/03/1987      0
1        2003      1
2      Jan-08      2
3  31/01/2010      3
4   2/13/2016      4

格式：DD/MM/YYYY

>>> pd.to_datetime(df['date'], format='%d/%m/%Y', errors='coerce')
0   1987-03-01
1          NaT
2          NaT
3   2010-01-31
4          NaT
>>> df['date'] = pd.to_datetime(df['date'], format='%d/%m/%Y', errors='coerce')
>>> df.dropna()
        date  value
0 1987-03-01      0
3 2010-01-31      3

- user2314737

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- EdChum · Accepted Answer

如果你的日期仅限于YYYY或MMM/YYYY或MM/DD/YYYY，那么与其应用正则表达式仅匹配MM/DD/YYYY，不如利用MM/DD/YYYY字符串长度为10的特点：

In [8]:

import pandas as pd

pd.set_option('display.notebook_repr_html', False)
df = pd.DataFrame({'date':['01/03/1987', '2003', 'Jan-08', '31/01/2010']})
df
Out[8]:
         date
0  01/03/1987
1        2003
2      Jan-08
3  31/01/2010

[4 rows x 1 columns]
In [9]:

df.ix[df.date.str.len() !=10]
Out[9]:
     date
1    2003
2  Jan-08

[2 rows x 1 columns]

您可以直接使用`to_datetime`函数，具体说明请参考to_datetime。

In [16]:

df1 = df.ix[df.date.str.len() !=10]
df1
Out[16]:
     date
1    2003
2  Jan-08

[2 rows x 1 columns]
In [17]:

df1.date = pd.to_datetime(df1.date)
df1
Out[17]:
                 date
1 2003-01-01 00:00:00
2 2014-01-08 00:00:00

[2 rows x 1 columns]

为了完整性，如果你想使用正则表达式进行过滤：

df.ix[~df.date.str.contains('(\d{2})[/](\d{2})[/](\d{4})')]

如果想要实现功能，请注意使用~进行否定。