如何基于日期时间索引切片Pandas数据框架

36

这个问题困扰我已经很长时间了:

给定一个简单的 pandas DataFrame

>>> df

Timestamp     Col1
2008-08-01    0.001373
2008-09-01    0.040192
2008-10-01    0.027794
2008-11-01    0.012590
2008-12-01    0.026394
2009-01-01    0.008564
2009-02-01    0.007714
2009-03-01   -0.019727
2009-04-01    0.008888
2009-05-01    0.039801
2009-06-01    0.010042
2009-07-01    0.020971
2009-08-01    0.011926
2009-09-01    0.024998
2009-10-01    0.005213
2009-11-01    0.016804
2009-12-01    0.020724
2010-01-01    0.006322
2010-02-01    0.008971
2010-03-01    0.003911
2010-04-01    0.013928
2010-05-01    0.004640
2010-06-01    0.000744
2010-07-01    0.004697
2010-08-01    0.002553
2010-09-01    0.002770
2010-10-01    0.002834
2010-11-01    0.002157
2010-12-01    0.001034

我该如何将其分离,使一个新的DataFrame等于df中在2009-05-012010-03-01日期之间的条目?

>>> df2

Timestamp     Col1
2009-05-01    0.039801
2009-06-01    0.010042
2009-07-01    0.020971
2009-08-01    0.011926
2009-09-01    0.024998
2009-10-01    0.005213
2009-11-01    0.016804
2009-12-01    0.020724
2010-01-01    0.006322
2010-02-01    0.008971
2010-03-01    0.003911

http://pandas.pydata.org/pandas-docs/stable/timeseries.html#indexing - wwii
3个回答

61
如果你已将“时间戳”列设置为索引,则可以简单地使用。
df['2009-05-01' :'2010-03-01']

2
另外,如果你只需要一个日期,可以这样做:df.loc['2009-05-01'] :) - Yuca
8
此外,如果你的索引中也包含时间信息,你可以按如下方式使用它:df.loc['2009-05-01 00:00:00':'2009-03-01 23:00:00'] - vogdb
2
只有当您的有序索引中没有其他无关的列在间隔列之间时,此代码才适用。 - rafaelc
如果索引日期是降序的,而不重新排序数据框,如何做到这一点?比如从数据框的顶部切片到某个日期?df.loc[:my_date]返回的是尾部而不是头部。谢谢。 - Confounded

11

如果我理解正确,这是一个简单的切片操作吗?

from datetime import datetime
df2 = df[(df.Timestamp >= datetime(2009, 05, 01)) &
         (df.Timestamp <= datetime(2010, 03, 01))]

5
请注意,不需要使用datetimedf[(df.Timestamp> ='2009-05-01')&(df.Timestamp <='2010-03-01')]即可。 - sacuL

1
您可以这样做:

df2 = df.set_index('Timestamp')['2009-05-01' :'2010-03-01']
print(df2)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接