I have 2 dataframes.
df1:
|Timestamp |ProjectId|AusID|Version|
+---------------------------------+---------+-------------+
|2017-09-19 16:57:36.000642 +02:00|20034 |529 |2017 |
|2017-09-19 16:58:32.000642 +02:00|20035 |973 |2017 |
|2017-09-21 12:51:36.000642 +02:00|20034 |521 |2017 |
|2017-09-22 17:58:36.000642 +02:00|20035 |543 |2017 |
df2:
|Timestamp |ProjectId|AusID|Version|
+---------------------------------+---------+-------------+
|2017-09-20 08:46:17.465000 Z |20034 |513 |2017 |
|2017-09-20 08:46:17.465000 Z |20035 |973 |2017 |
|2017-09-21 08:46:17.465000 Z |20034 |521 |2017 |
|2017-09-22 08:46:17.465000 Z |20035 |587 |2017 |
这些记录都是以百万计且包含更多列。我想合并这两个数据框,并使用AusID删除重复项,即当两个记录具有相同的AusID时,选择最新的记录(基于日期)并删除另一个记录。另一个问题是,日期在两个数据框中的格式也不相同。
我尝试使用以下方法:
df1.union(df2).except(df1.intersect(df2)).show()
但是似乎它正在考虑所有列,如果有人能给一些提示就太好了。