我有以下数据。文件名:babynames.csv。
year name percent sex
1880 John 0.081541 boy
1880 William 0.080511 boy
1880 James 0.050057 boy
我需要按照年份和性别对输入进行排序,并且希望输出聚合如下(此输出将被分配给新的RDD)。
year sex avg(percentage) count(rows)
1880 boy 0.070703 3
在pyspark中,我不确定如何在以下步骤之后继续操作。需要您的帮助。
testrdd = sc.textFile("babynames.csv");
rows = testrdd.map(lambda y:y.split(',')).filter(lambda x:"year" not in x[0])
aggregatedoutput = ????