假设我有一个示例工作(使用Java API的Groovy语言):
def set1 = []
def set2 = []
0.upto(10) { set1 << it }
8.upto(20) { set2 << it }
def rdd1 = context.parallelize(set1)
def rdd2 = context.parallelize(set2)
//What next?
如何获取两个RDD之间的差集?我知道union
可以创建一个包含这些RDD中所有数据的RDD,但我该如何实现相反的操作?