Spark中UDAF与聚合器的性能比较

Question

Spark中UDAF与聚合器的性能比较

performanceapache-sparkapache-spark-sqlaggregate-functionsapache-spark-2.0

3

我正在尝试编写一些性能意识代码，并思考是否应该为我的Dataframe上的汇总操作编写一个Aggregator或User-defined Aggregate Function（UDAF）来提高性能。我无法在任何地方找到关于这些方法的速度和哪个应该在Spark 2.0+中使用的数据。请参考以下链接：Aggregator 和 User-defined Aggregate Function。

- Thomas Russell

你在考虑哪些“Rollup操作”？Rollup聚合已经被Spark SQL支持了。 - Jacek Laskowski

@JacekLaskowski 你好，我的意思是使用 rollup，但是使用自定义聚合函数。 - Thomas Russell

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Vincent Doba · Accepted Answer

你应该编写一个 Aggregator 而不是一个 UserDefinedAggregateFunction，因为 UserDefinedAggregateFunction 会对每一行执行低效的序列化/反序列化任务。将 UserDefinedAggregateFunction 重写为 Aggregator 可以将性能从25％-30％提高到100倍，正如在替换 UserDefinedAggregateFunction 为 Aggregator 的 pull request 中所述。

由于这些性能问题，UserDefinedAggregateFunction 类在 Spark 3.0 中已被弃用。