I have a data frame which looks like
scala> val df = sc.parallelize(Seq(("User 1","X"), ("User 2", "Y"), ("User 3", "X"), ("User 2", "E"), ("User 3", "E"))).toDF("user", "event")
scala> df.show
+------+-----+
| user|event|
+------+-----+
|User 1| X|
|User 2| Y|
|User 3| X|
|User 2| E|
|User 3| E|
+------+-----+
我想找到所有拥有事件“X”但没有事件“E”的用户。
在这种情况下,只有“用户1”符合条件,因为它没有事件“E”条目。我该如何使用Spark API实现呢?