我是Spark的新手,想要使用group-by和reduce从CSV文件中找到以下信息(每个雇员一行):
Department, Designation, costToCompany, State
Sales, Trainee, 12000, UP
Sales, Lead, 32000, AP
Sales, Lead, 32000, LA
Sales, Lead, 32000, TN
Sales, Lead, 32000, AP
Sales, Lead, 32000, TN
Sales, Lead, 32000, LA
Sales, Lead, 32000, LA
Marketing, Associate, 18000, TN
Marketing, Associate, 18000, TN
HR, Manager, 58000, TN
我想要通过按照Department, Designation, State分组,添加 sum(costToCompany) 和 TotalEmployeeCount 附加列来简化关于 CSV 的内容。
应该得到如下结果:
Dept, Desg, state, empCount, totalCost
Sales,Lead,AP,2,64000
Sales,Lead,LA,3,96000
Sales,Lead,TN,2,64000
有没有使用转换和操作来实现这一点的方法。或者我们应该采用RDD操作?