我有一些数据,看起来像这样:
user timestamp value1
a 2007-01-01 7
a 2007-02-02 8
a 2007-02-03 9
b 2007-02-04 1
a 2007-02-05 2
b 2007-02-06 3
b 2007-02-07 4
a 2007-02-08 5
...
每个用户的条目数量不同。
我的目标是了解这些条目的生成速度,并输出类似以下内容的信息:
last_entry median_entry first_entry
user
a 2007-02-08 2007-02-03 2007-01-01
b 2007-02-07 2007-02-06 2007-02-04
到目前为止,我的代码如下:
gb = df.groupby('user')
time_median = gb['timestamp'].median()
但是这给了我一个DataError: No numeric types to aggregate
错误,可能是因为日期不是数字。
我想把日期转换成时间戳,找到它们的中位数,然后再把它们转换成日期时间对象。这是最好的方法吗?