我的输入数据集长这样:
这是这样的:
我尝试过以下方法:
id1, 10, v1
id2, 9, v2
id2, 34, v3
id1, 6, v4
id1, 12, v5
id2, 2, v6
我希望你能够输出内容
id1; 6,v4 | 10,v1 | 12,v5
id2; 2,v6 | 9,v2 | 34,v3
这是这样的:
id1: array[num(i),value(i)] where num(i) should be sorted
我尝试过以下方法:
将id和第二列作为键,使用
sortByKey
排序。但由于它是一个字符串,所以排序并不像整数那样进行,而是按照字符串的方式。将第二列作为键,使用
sortByKey
排序,然后在值中获取id、键和第二列。使用reduceByKey
时,顺序不会被保留。即使使用groupByKey
也无法保持顺序。实际上这是预期的。