我使用以下代码对学生进行年度聚合。目的是了解每年的学生总数。
from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
我发现的问题是很多ID重复,导致结果错误且巨大。
我想按年份汇总学生,统计每年的学生总数,并避免ID重复。