Pandas多重索引DataFrame.rolling偏移

Question

Pandas多重索引DataFrame.rolling偏移

pythonpandasdataframeaggregatemulti-index

10

为什么我在对多级索引的DataFrame进行rolling操作时不能使用偏移量？例如，使用以下代码：

rng = pd.date_range('2017-01-03', periods=20, freq='8D')
i = pd.MultiIndex.from_product([['A','B','C'], rng], names=['Name','Date'])
df = pd.DataFrame(np.random.randn(60), i, columns=['Vals'])

如果我尝试使用偏移量进行分组和滚动，会出现“ValueError: window must be an integer”的错误提示：

df['Avg'] = df.groupby(['Name'])['Vals'].rolling('30D').mean() # << Why doesn't this work?

虽然以下的变量不符合我的需求，但是请注意使用int进行分组和滚动是可行的：

df['Avg'] = df.groupby(['Name'])['Vals'].rolling(4).mean()

我可以在DataFrame的单索引子集上使用偏移量进行滚动：

d = df.loc['A']
d['Avg'] = d['Vals'].rolling('30D').mean()

如果在多索引数据框上无法进行滚动偏移操作，那么应该采用什么最有效的解决方法来将其应用于每个0级索引项？

- feetwet

2个回答

1

在MultiIndex的一级别上滚动支持仍然存在不完美之处，参见：https://github.com/pandas-dev/pandas/issues/34642

除了@JohnE的解决方案外，还可以使用transform方法：

df.groupby(level='Name')\
  .Vals\
  .transform(lambda d: d.rolling('30D', on=d.index.levels[1])\
                        .mean()
            )

请注意没有 transform 的代码：

df.groupby(level='Name')\
  .Vals\
  .rolling('30D', on=df.index.levels[1])\
  .mean()

在Pandas 1.5中会抛出一个IndexError异常。

- Andrea Gagna

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- JohnE · Accepted Answer

如果要使用像“30D”这样的偏移量，您需要一个简单的日期索引。在这种情况下，实现最简单的方法是通过 reset_index(level='Name') 将“Name”移出索引，仅保留“Date”作为索引：

df['Avg'] = df.reset_index(level='Name').groupby(['Name'])['Vals'].rolling('30D').mean()