根据文档,Spark SQL应该支持
collect_set
和collect_list
函数。然而,我在运行使用Docker镜像的Spark 1.6.0时无法正常工作。我尝试在Scala中执行此操作:import org.apache.spark.sql.functions._
df.groupBy("column1")
.agg(collect_set("column2"))
.show()
并且在运行时收到以下错误:
Exception in thread "main" org.apache.spark.sql.AnalysisException: undefined function collect_set;
尝试使用pyspark
也失败了,文档说明这些函数是Hive UDAF的别名,但我无法弄清如何启用这些函数。
如何修复?谢谢!