如何在Dataframe Spark Scala中对列表进行分组和拼接？

Question

如何在Dataframe Spark Scala中对列表进行分组和拼接？

scalaapache-sparkdataframeapache-spark-sql

7

我有一个包含两列数据的数据框，如下所示

+----+-----------------+
|acct|           device|
+----+-----------------+
|   B|       List(3, 4)|
|   C|       List(3, 5)|
|   A|       List(2, 6)|
|   B|List(3, 11, 4, 9)|
|   C|       List(5, 6)|
|   A|List(2, 10, 7, 6)|
+----+-----------------+

我需要以下结果。

+----+-----------------+
|acct|           device|
+----+-----------------+
|   B|List(3, 4, 11, 9)|
|   C|    List(3, 5, 6)|
|   A|List(2, 6, 7, 10)|
+----+-----------------+

我尝试了以下代码，但好像没有起作用。

df.groupBy("acct").agg(concat("device"))

df.groupBy("acct").agg(collect_set("device"))

请告诉我如何使用Scala实现这个功能？

- Babu

1

@sb0709，没有名为GroupConcat的函数。 - Alper t. Turker

3个回答

3

除了使用 explode 选项外，可能会有一个表现更好的选择：创建自己的用户定义聚合函数（UserDefinedAggregationFunction），将列表合并为不同的集合。

您需要按以下方式扩展UserDefinedAggregateFunction：

class MergeListsUDAF extends UserDefinedAggregateFunction {

  override def inputSchema: StructType = StructType(Seq(StructField("a", ArrayType(IntegerType))))

  override def bufferSchema: StructType = inputSchema

  override def dataType: DataType = ArrayType(IntegerType)

  override def deterministic: Boolean = true

  override def initialize(buffer: MutableAggregationBuffer): Unit = buffer.update(0, mutable.Seq[Int]())

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    val existing = buffer.getAs[mutable.Seq[Int]](0)
    val newList = input.getAs[mutable.Seq[Int]](0)
    val result = (existing ++ newList).distinct
    buffer.update(0, result)
  }

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = update(buffer1, buffer2)

  override def evaluate(buffer: Row): Any = buffer.getAs[mutable.Seq[Int]](0)
}

然后像这样使用：

val mergeUDAF = new MergeListsUDAF()

df.groupBy("acct").agg(mergeUDAF($"device"))

- Tzach Zohar

0

你可以尝试使用 collect_set 和 Window。对于你的情况：

df.withColumn("device", collect_set("device").over(Window.partitionBy("acct")))

- dportman

2

我猜这会导致嵌套数组。 - Raphael Roth

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tzach Zohar · Accepted Answer

你可以从拆分device列开始，然后继续进行-但请注意，这可能无法保留列表的顺序（无论如何，在任何group by中都不能保证）。

val result = df.withColumn("device", explode($"device"))
  .groupBy("acct")
  .agg(collect_set("device"))

result.show(truncate = false)
// +----+-------------------+
// |acct|collect_set(device)|
// +----+-------------------+
// |B   |[9, 3, 4, 11]      |
// |C   |[5, 6, 3]          |
// |A   |[2, 6, 10, 7]      |
// +----+-------------------+