我有一个如下所示的数据框
Id Date1 Date2 QuestionId AnswerValue
10 2000-01-14 2000-01-14 1339 3
10 2000-01-14 1999-12-09 1339 2
10 2000-01-14 1999-11-23 1461 1
10 2000-01-14 2000-01-03 1461 18
10 2000-01-14 1999-11-16 274 0
57 2014-02-01 2014-12-10 278 0
57 2014-02-01 2012-11-07 280 0
57 2014-02-01 2012-09-30 280 0
57 2014-02-01 2012-01-15 261 0
我的目标是根据以下标准保留观察结果。
- 保留ID和QuestionID组合中的行,其中QuestionID是唯一的,并且在该ID + QuestionID组合中没有其他重复的QuestionIDs。例如:保留最后一行
Id Date1 Date2 QuestionId AnswerValue
57 2014-02-01 2012-01-15 261 0
Id Date1 Date2 QuestionId AnswerValue
10 2000-01-14 2000-01-14 1339 3
删除任何Date2值大于Date1的行,例如第6行应该被删除
Id Date1 Date2 QuestionId AnswerValue 57 2014-02-01 2014-12-10 278 0
最终数据集应该如下所示。
Id Date1 Date2 QuestionId AnswerValue
10 2000-01-14 2000-01-14 1339 3
10 2000-01-14 2000-01-03 1461 18
10 2000-01-14 1999-11-16 274 0
57 2014-02-01 2014-12-10 278 0
57 2014-02-01 2012-11-07 280 0
57 2014-02-01 2012-01-15 261 0
任何关于实现这个的帮助都非常感激。提前致谢。