我有一个类似下面的DataFrame。我需要基于现有列创建一个新列。
col1 col2
a 1
a 2
b 1
c 1
d 1
d 2
输出的数据框应该长成这样
col1 col2 col3 col4
a 1 1 2
a 2 1 2
b 1 0 1
c 1 0 1
d 1 1 2
d 2 1 2
我用来找到 col3 的逻辑是如果 col1 的计数>1并且col4 是 col2 的最大值。
我熟悉如何在 SQL 中实现,但使用 DataFrame DSL 很难找到解决方案。任何帮助将不胜感激。谢谢。