我正在尝试在Spark 1.6.1中使用SQLContext.subtract(),根据另一个数据框架中的列删除数据框架中的行。让我们举个例子:
from pyspark.sql import Row
df1 = sqlContext.createDataFrame([
Row(name='Alice', age=2),
Row(name='Bob', age=1),
]).alias('df1')
df2 = sqlContext.createDataFrame([
Row(name='Bob'),
])
df1_with_df2 = df1.join(df2, 'name').select('df1.*')
df1_without_df2 = df1.subtract(df1_with_df2)
由于我想要从df1
中获取除name='Bob'
以外的所有行,因此我期望得到Row(age=2,name='Alice')
。但是我也检索到了Bob:
print(df1_without_df2.collect())
# [Row(age='1', name='Bob'), Row(age='2', name='Alice')]
经过多次实验,我找到了这个MCVE,发现问题出在age
键上。如果我省略它:
df1_noage = sqlContext.createDataFrame([
Row(name='Alice'),
Row(name='Bob'),
]).alias('df1_noage')
df1_noage_with_df2 = df1_noage.join(df2, 'name').select('df1_noage.*')
df1_noage_without_df2 = df1_noage.subtract(df1_noage_with_df2)
print(df1_noage_without_df2.collect())
# [Row(name='Alice')]
然后我只得到了预期中的Alice。我做出的最奇怪的观察是,只要它们在连接中使用的键之后(按字典顺序意义上),就可以添加键:
df1_zage = sqlContext.createDataFrame([
Row(zage=2, name='Alice'),
Row(zage=1, name='Bob'),
]).alias('df1_zage')
df1_zage_with_df2 = df1_zage.join(df2, 'name').select('df1_zage.*')
df1_zage_without_df2 = df1_zage.subtract(df1_zage_with_df2)
print(df1_zage_without_df2.collect())
# [Row(name='Alice', zage=2)]
我正确地得到了Alice(和她的zage)!在我的实例中,我对所有列感兴趣,而不仅仅是在name
之后的那些。