如何对pandas数据框的值进行分组,并从每个组中选择最新的(按日期)?
例如,给定按日期排序的数据框:
按照id或产品进行分组,并选择最新的结果:
例如,给定按日期排序的数据框:
id product date
0 220 6647 2014-09-01
1 220 6647 2014-09-03
2 220 6647 2014-10-16
3 826 3380 2014-11-11
4 826 3380 2014-12-09
5 826 3380 2015-05-19
6 901 4555 2014-09-01
7 901 4555 2014-10-05
8 901 4555 2014-11-01
按照id或产品进行分组,并选择最新的结果:
id product date
2 220 6647 2014-10-16
5 826 3380 2015-05-19
8 901 4555 2014-11-01
groupby
保留顺序,这不是一个问题吗? - Michael Ddf.sort_values('date').drop_duplicates('id', keep='last')
- Alex Li