我有两个数据框:分别称为group_user_log和group_user。
group_user_log
user_id server_time session_id
1 2018-01-01 435
1 2018-01-01 435
1 2018-01-04 675
1 2018-01-05 454
1 2018-01-05 454
1 2018-01-06 920
group_train
user_id impression_time totalcount distinct_count
1 2018-01-03 0 0
1 2018-01-05 0 0
逻辑是从group_user_log中获取session_id的总计数和唯一计数,其中server_time小于impression_time,并填充总计数和唯一计数列。 group_train的期望输出如下:
user_id impression_time totalcount distinct_count
1 2018-01-03 2 1
1 2018-01-05 3 2
我试过逐行处理,但对于较大的数据框来说,这是耗时且效率非常低下的,因为上面的数据是从两个大数据框中针对特定用户ID的子集,需要对大量的用户ID进行这样的计算,所以我希望能够提高效率。
感谢您的帮助!