如何将日期时间列四舍五入到最近的15分钟?

67

我已经将一个数据文件加载到Python pandas dataframe中。其中有一个时间列的格式为2015-07-18 13:53:33.280

我需要做的是创建一个新列,将其舍入到最近的15分钟。因此,上面的日期将被舍入为2015-07-18 13:45:00.000

在pandas中如何实现这个功能?我尝试使用从这里得到的解决方案,但出现了'Series' object has no attribute 'year'错误。

5个回答

152
你可以使用 round(freq)。还有一个快捷方式 column.dt 用于访问日期时间函数(如 @laurens-koppenol 所建议)。
这是一个一行代码的解决方案:
df['old column'].dt.round('15min')  

你可以在这里找到用于有效频率的字符串别名。下面是完整的工作示例:

In [1]: import pandas as pd    
In [2]: df = pd.DataFrame([pd.Timestamp('2015-07-18 13:53:33.280'),
                           pd.Timestamp('2015-07-18 13:33:33.330')],
                         columns=['old column'])

In [3]: df['new column']=df['old column'].dt.round('15min')  
In [4]: df
Out[4]: 
               old column          new column
0 2015-07-18 13:53:33.280 2015-07-18 14:00:00
1 2015-07-18 13:33:33.330 2015-07-18 13:30:00

24
如果想要四舍五入到最接近的上下时间,可以使用 floorceil 分别进行操作。详见代码 - Dror

50

假设您的系列是由datetime对象组成的,您需要使用Series.apply。示例 -

import datetime
df['<column>'] = df['<column>'].apply(lambda dt: datetime.datetime(dt.year, dt.month, dt.day, dt.hour,15*(dt.minute // 15)))

上述示例始终向前舍入到最接近的15分钟(类似于floor函数的行为)。

编辑

要四舍五入到正确的15分钟(例如,如果距离上一个15分钟过去了7分30秒,则显示下一个15分钟),可以使用以下示例-

import datetime
df['<column>'] = df['<column>'].apply(lambda dt: datetime.datetime(dt.year, dt.month, dt.day, dt.hour,15*round((float(dt.minute) + float(dt.second)/60) / 15)))

如果你想考虑到毫秒/微秒,可以将其添加到上述方程式中 - (float(dt.minute) + float(dt.second)/60 + float(dt.microsecond)/60000000)


1
我认为这个答案实际上是错误的 - 因为它总是会向下舍入到前一个刻钟,而不是最近的刻钟。 - Thomas Mo
@ThomasMo 也更新了这个答案。之前的行为类似于 floor 函数。 - Anand S Kumar
我们能把这个传递到一个函数中吗,比如说 def secondBackAdjuster(numSec): if numSec > 30: numSec = 30 else: numSec = 0 numSec , # Applog['TimeCreatedAdj'] = secondBackAdjuster(Applog['TimeCreatedAdj']) - user2458922
4
答案仍然不正确。当时间为7:59时,这会尝试执行datetime(y,m,d,7,60),但会失败,因为60是“分钟”中的无效值。@tworec提供了更好的答案,应该被接受。 - Roobie Nuby

18

这看起来更漂亮了一些

column.dt. 允许对日期时间列使用日期时间函数,就像 column.str. 对于类字符串列一样

datetime-like 属性 API 参考文档

import pandas as pd

# test df
df = pd.DataFrame([{'old_column':pd.Timestamp('2015-07-18 13:53:33.280')}])

df['new_column'] = df['old_column'].dt.round('15min')

df

7
安德·S·库马尔的答案没有舍入到最近的15分钟,而是将其分钟数截断到最接近的15分钟以下。
实际上,在您的示例“2015-07-18 13:53:33.280”中,应该舍入到“2015-07-18 14:00:00.000”,因为“53:33.280”比“45分钟”更接近60分钟。
我在这个帖子中找到了一个更加健壮的舍入答案。
对于您的情况,这应该可以工作。
import datetime

def round_time(time, round_to):
    """roundTo is the number of minutes to round to"""
    rounded = time + datetime.timedelta(minutes=round_to/2.)
    rounded -= datetime.timedelta(minutes=rounded.minute % round_to,
                                  seconds=rounded.second,
                                  microseconds=rounded.microsecond)
    return rounded

dt['dtcolumn'] = df['dtcolumn'].apply(lambda x: round_time(x))

0
如果您愿意向下舍入到最近的15分钟,那么使用.dt.to_freq('15min')也可以解决问题。请注意,这将更改数据类型,这可能是期望的结果。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接