我希望您能够对pyspark数据框进行分组,并计算特定列的方差。对于平均值,这很容易实现,可以像这样完成:
from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()
然而,在方差计算上,似乎在函数子模块中没有任何聚合函数可用(我也很好奇为什么,因为这是一种相当常见的操作)。
func.pow('clicks',2)
来得到点击次数的平方。 - Paul