我有这样一个表:
Clients City Timestamp
1 NY 0
1 WDC 10
1 NY 11
2 NY 20
2 WDC 15
我想要的输出是根据时间戳收集所有城市(每个时间戳每个用户只有一个唯一的城市)。但是不显示时间戳。最终列表必须只按顺序包含城市。因此,对于该示例,它会得到以下结果:
Clients my_list Timestamp
1 NY - WDC - NY
2 WDC - NY
也许,我应该使用时间戳生成一个列表。然后在该列表中删除时间戳。我不知道......
我正在使用Scala的Spark SQL。因此,我尝试在SQL或Scala中使用collect_list,但似乎在使用之后我们失去了排序。
你能帮我解决这个问题吗?