我正在使用Spark 1.5/1.6,想要在DataFrame中进行reduceByKey操作,但是我不想将df转换为rdd。
每一行的格式如下,而且对于id1,我有多行数据。
id1, id2, score, time
我希望能够有这样的东西:
id1, [ (id21, score21, time21) , ((id22, score22, time22)) , ((id23, score23, time23)) ]
所以,对于每个"id1",我希望所有记录都在一个列表中
顺便说一下,为什么不想将df转换为rdd的原因是因为我必须将这个(减少的)数据框与另一个数据框连接,并且我正在对连接键进行重新分区,这使得它更快,我猜rdd无法做到同样的事情
任何帮助将不胜感激。