这里有两个 RDD:
rdd1 = sc.parallelize([("www.page1.html", "word1"), ("www.page2.html", "word1"),
("www.page1.html", "word3")])
rdd2 = sc.parallelize([("www.page1.html", 7.3), ("www.page2.html", 1.25),
("www.page3.html", 5.41)])
intersection_rdd = rdd1.keys().intersection(rdd2.keys())
// 当我这样做时,我只得到了键的交集,即(www.page1.html,www.page2.html)。
但是我需要两个rdd中的键以及它们的值。 输出应该像这样:
[www.page1.html, (word1, word3, 7.3)]
[www.page2.html, (word1, 1.25)]