我目前有这个数据框:
id date outcome
3 03/05/2019 no
3 29/05/2019 no
3 04/09/2019 no
3 30/10/2019 yes
3 03/05/2020 no
5 03/12/2019 no
5 26/12/2019 no
5 27/01/2020 yes
5 03/06/2020 yes
6 04/05/2019 no
6 27/10/2019 no
6 26/11/2019 yes
6 28/11/2019 yes
6 29/11/2019 yes
6 13/04/2020 yes
6 14/04/2020 yes
6 24/04/2020 no
6 30/04/2020 no
6 05/05/2020 no
基于id分组,按日期升序排列。
如果一个当前行的结果与其后面的行相同,则需要将该行删除。但是,如果一行的结果为“yes”,则下一行必须是第一个“no”。这是上述数据框所需的结果:
id date outcome
3 04/09/2019 no
3 30/10/2019 yes
3 03/05/2020 no
5 26/12/2019 no
5 03/06/2020 yes
6 27/10/2019 no
6 14/04/2020 yes
6 24/04/2020 no
目前我正在做这件事:
m1 = (df['outcome'] != df['outcome'].shift()).cumsum()
updated_df = df.groupby([df['id'],m1]).tail(1)
然而,这只给我分组后yes/no计数的最后一个值。如何以最多使用Pandas的方式应用条件?
id=3
,在“是”的后面(即日期为 03/05/2020 的行)不是具有结果“否”的组的第一行,但它仍然存在于预期输出中。 - Rodalm