Pandas分组转换中时间戳差异

Question

Pandas分组转换中时间戳差异

pythonpandasnumpytimestampsplit-apply-combine

4

我有一个包含整数索引、session_id、event和time_stamp的数据框，它看起来像这样：

In [41]: df = pd.DataFrame(data={'session_id': np.sort(np.random.choice(np.arange(3), 11)), 'event': np.random.choice(['A', 'B', 'C', 'D'], 11), 'time_stamp': pd.date_range
    ...: ('1/1/2017', periods=11, freq='S')}).reset_index(drop=True)

In [42]: df
Out[42]:
   event  session_id          time_stamp
0      B           0 2017-01-01 00:00:00
1      C           0 2017-01-01 00:00:01
2      D           0 2017-01-01 00:00:02
3      B           1 2017-01-01 00:00:03
4      B           1 2017-01-01 00:00:04
5      D           2 2017-01-01 00:00:05
6      B           2 2017-01-01 00:00:06
7      A           2 2017-01-01 00:00:07
8      B           2 2017-01-01 00:00:08
9      B           2 2017-01-01 00:00:09
10     A           2 2017-01-01 00:00:10

我想使用groupby和lambda函数来计算会话长度，但我希望返回一个与原始数据框索引相同的系列对象，以便将其添加为一列。这应该可以通过使用groupby.transform实现，但它返回一个奇怪的“无法将对象转换为numpy日期时间”的错误：

In [44]: df.groupby('session_id')['time_stamp'].transform(lambda x: x.max() - x.min())
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-44-c67ed1d4a90e> in <module>()
----> 1 df.groupby('session_id')['time_stamp'].transform(lambda x: x.max() - x.min())

/Users/hendele/anaconda2/lib/python2.7/site-packages/pandas/core/groupby.pyc in transform(self, func, *args, **kwargs)
   2843
   2844             indexer = self._get_index(name)
-> 2845             result[indexer] = res
   2846
   2847         result = _possibly_downcast_to_dtype(result, dtype)

ValueError: Could not convert object to NumPy datetime

我曾以为我的使用方式有误，但是当我使用 groupby.agg 时，它奏效了！

In [43]: df.groupby('session_id')['time_stamp'].agg(lambda x: x.max() - x.min())
Out[43]:
session_id
0   00:00:02
1   00:00:01
2   00:00:05
Name: time_stamp, dtype: timedelta64[ns]

请问这是一个bug吗？如果不是，那我做错了什么呢？谢谢！顺便说一句，我不想使用时间戳索引，因为实际数据中可能会有重复的时间戳。

- lenderson

PR 已合并，并且修复应该在 0.20.0 版本中。 - Stephen Rauch

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Stephen Rauch · Accepted Answer

为什么agg可以工作，而transform失败？

这两种行为的区别在于，transform()操作需要返回一个类似索引的结果。为了实现这一点，transform从原始序列开始复制。然后，在每个组的计算完成后，将复制的序列的相应元素设置为结果。此时进行类型比较，发现timedelta不能转换为datetime，因此transform会失败。而agg()不执行此步骤，所以不会失败。

解决方法：

这种情况下有一个解决方案。如果transform的结果是datetime，它就会成功。因此，解决方法如下：

base_time = df['time_stamp'][0]
df.groupby('session_id')['time_stamp'].transform(
    lambda x: x.max() - x.min() + base_time) - base_time

这是一个Bug吗？

我认为这是一个Bug，打算明天提交一个问题。我会在这里更新问题链接。

更新：

我已经提交了一个Bug和一个拉取请求来解决这个问题。