我有一个大型的时间序列数据集,存储在一个.csv文件中。该文件有两列:
values
:这是样本值。dttm_utc
:这些是收集样本的时间戳。
我使用pd.read_csv(..., parse_dates=["dttm_utc"])
将数据导入到了pandas中。当我打印前50行的dttm_utc
列时,它们看起来像这样:
0 2012-01-01 00:05:00
1 2012-01-01 00:10:00
2 2012-01-01 00:15:00
3 2012-01-01 00:20:00
4 2012-01-01 00:25:00
5 2012-01-01 00:30:00
6 2012-01-01 00:35:00
7 2012-01-01 00:40:00
8 2012-01-01 00:45:00
9 2012-01-01 00:50:00
10 2012-01-01 00:55:00
11 2012-01-01 01:00:00
12 2012-01-01 01:05:00
13 2012-01-01 01:10:00
14 2012-01-01 01:15:00
15 2012-01-01 01:20:00
16 2012-01-01 01:25:00
17 2012-01-01 01:30:00
18 2012-01-01 01:35:00
19 2012-01-01 01:40:00
20 2012-01-01 01:45:00
21 2012-01-01 01:50:00
22 2012-01-01 01:55:00
23 2012-01-01 02:00:00
24 2012-01-01 02:05:00
25 2012-01-01 02:10:00
26 2012-01-01 02:15:00
27 2012-01-01 02:20:00
28 2012-01-01 02:25:00
29 2012-01-01 02:30:00
30 2012-01-01 02:35:00
31 2012-01-01 02:40:00
32 2012-01-01 02:45:00
33 2012-01-01 02:50:00
34 2012-01-01 02:55:00
35 2012-01-01 03:00:00
36 2012-01-01 03:05:00
37 2012-01-01 03:10:00
38 2012-01-01 03:15:00
39 2012-01-01 03:20:00
40 2012-01-01 03:25:00
41 2012-01-01 03:30:00
42 2012-01-01 03:35:00
43 2012-01-01 03:40:00
44 2012-01-01 03:45:00
45 2012-01-01 03:50:00
46 2012-01-01 03:55:00
47 2012-01-01 04:00:00
48 2012-01-01 04:05:00
49 2012-01-01 04:10:00
Name: dttm_utc, dtype: datetime64[ns]
现在,我想要实现的是:
1.基本上,我想要将数据下采样到每小时一次。我想要对第一个小时、第二个小时等采样进行求和和平均处理,即想要对编号为0-10的所有行的值进行求和和平均,因为它们是在第一小时内收集的,接下来我想要对第11行到第22行之间的数据进行求和和平均处理,以此类推。我该如何使用pandas命令实现这一点?
目前,如果更改为每隔2或10分钟进行采样,我希望我的解决方案仍然有效。