Spark从DataFrame中删除重复行

Question

Spark从DataFrame中删除重复行

scalaapache-sparkdataframeapache-spark-sql

5

假设我有一个类似于DataFrame的数据结构：

val json = sc.parallelize(Seq("""{"a":1, "b":2, "c":22, "d":34}""","""{"a":3, "b":9, "c":22, "d":12}""","""{"a":1, "b":4, "c":23, "d":12}"""))
val df = sqlContext.read.json(json)

我希望根据列“b”的值来删除列“a”的重复行。例如，如果有列“a”的重复行，则保留具有较大“b”值的行。在上面的示例中，处理后，我只需要以下内容：

{"a":3, "b":9, "c":22, "d":12} 和 {"a":1, "b":4, "c":23, "d":12}

Spark DataFrame 的 dropDuplicates API 似乎不支持此操作。使用 RDD 方法，可以执行 map().reduceByKey() 操作，但是是否有DataFrame特定的操作可以实现此功能呢？

感谢您的帮助，谢谢。

- void

你是如何决定保留哪些c和d值的？如果你想要它们的最大值，那么可以使用类似于df.groupBy("a").max("a", "b", "c")的方法。 - Robert Horvick

我不是在寻找"c"和"d"的最大值，只需要具有最大值("b")的"a"行。 - void

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Pankaj Arora · Accepted Answer

你可以在SparkSQL中使用窗口函数来实现这个功能。

df.registerTempTable("x")
sqlContext.sql("SELECT a, b,c,d  FROM( SELECT *, ROW_NUMBER()OVER(PARTITION BY a ORDER BY b DESC) rn FROM x) y WHERE rn = 1").collect

这将实现您所需的功能。了解更多关于窗口函数支持的信息，请访问https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html。