Pandas时间序列重采样:以给定日期为结束日期

8
我猜想许多处理时间序列数据的人都已经遇到过这个问题,而且pandas似乎还没有提供一个直接的解决方案(暂时没有!):
假设:
1. 你有一个按日期(天)索引的每日收盘价时间序列数据。 2. 今天是6月19日,最后一个收盘数据值是6月18日。 3. 你想将每日数据重新采样成OHLC条形图,并以某个给定的频率(比如M或2M)结束于6月18日。
因此,对于M频率,最后一个条形图将是5月19日至6月18日,上一个条形图将是4月19日至5月18日,依此类推...
ts.resample('M', how='ohlc')

将进行重新采样,但'M'是“end_of_month”期间,因此结果将为2014-05提供一个完整的月份和2014-06的两周周期,因此您的最后一个柱形图将不是“月度柱形图”。那不是我们想要的!

使用2M频率,鉴于我的样本时间序列,我的测试给出了标记为2014-07-31的最后一个柱状图(上一个标记为2014-05-31),这非常具有误导性,因为JUL上没有数据....所谓的最后2个月条再次仅涵盖最近的2个星期。

正确的DatetimeIndex可以轻松创建:

pandas.date_range(end='2014-06-18', freq='2M', periods=300) + datetime.timedelta(days=18)
进行相同的操作。
pandas.date_range(end='2014-06-18', freq='2M', periods=300) + pandas.tseries.offsets.DateOffset(days=18)

但是我的测试显示,虽然这种方法更加“熊猫风格”,但速度慢了2倍!

无论如何,我们都不能将正确的DatetimeIndex应用于ts.resample()。

似乎pandas开发团队(Pandas中的日期范围)已经意识到了这个问题,但在此期间,您如何解决它以获得以时间序列中最后一天为锚点的滚动频率的OHLC?

1个回答

2

这基本上是从复制/粘贴中拼凑而成的,我确信在某些情况下会失败 - 但以下是一些起始代码,用于创建一个自定义的Offset,该Offset锚定在每月的特定日期。

from pandas.tseries.offsets import (as_datetime, as_timestamp, apply_nat, 
                               DateOffset, relativedelta, datetime)
class MonthAnchor(DateOffset):
    """DateOffset Anchored to day in month

        Arguments:
        day_anchor: day to be anchored to
    """

    def __init__(self, n=1, **kwds):
        super(MonthAnchor, self).__init__(n)

        self.kwds = kwds
        self._dayanchor = self.kwds['day_anchor']

    @apply_nat
    def apply(self, other):
        n = self.n

        if other.day > self._dayanchor and n <= 0:  # then roll forward if n<=0
            n += 1
        elif other.day < self._dayanchor and n > 0:
            n -= 1

        other = as_datetime(other) + relativedelta(months=n)
        other = datetime(other.year, other.month, self._dayanchor)
        return as_timestamp(other)

    def onOffset(self, dt):
        return dt.day == self._dayanchor

    _prefix = ''

例子用法:

In [28]: df = pd.DataFrame(data=np.linspace(50, 100, 200), index=pd.date_range(end='2014-06-18', periods=200), columns=['value'])

In [29]: df.head()
Out[29]: 
                value
2013-12-01  50.000000
2013-12-02  50.251256
2013-12-03  50.502513
2013-12-04  50.753769
2013-12-05  51.005025


In [61]: month_offset = MonthAnchor(day_anchor = df.index[-1].day + 1)

In [62]: df.resample(month_offset, how='ohlc')
Out[62]: 
                value                                   
                 open        high        low       close
2013-11-19  50.000000   54.271357  50.000000   54.271357
2013-12-19  54.522613   62.060302  54.522613   62.060302
2014-01-19  62.311558   69.849246  62.311558   69.849246
2014-02-19  70.100503   76.884422  70.100503   76.884422
2014-03-19  77.135678   84.673367  77.135678   84.673367
2014-04-19  84.924623   92.211055  84.924623   92.211055
2014-05-19  92.462312  100.000000  92.462312  100.000000

似乎如果day_anchor大于28(例如FEB的最后一天),它会失败,会出现“ValueError:day is out of range for month”的错误。 - comte
这个似乎有问题:ImportError: 无法从 'pandas.tseries.offsets' 导入名称为 'apply_nat' 的内容。有什么想法吗? - Peterhack

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接