假设我们有一个 pyspark 数据框,其中一个列(
数据框:
我希望筛选这个数据框,只保留包含list_a中任意一项的column_a的值所在的行。
以下是筛选单个字符串的代码:
column_a
)包含一些字符串值,同时还有一个字符串列表(list_a
)。数据框:
column_a | count
some_string | 10
another_one | 20
third_string | 30
列表_a:
['string', 'third', ...]
我希望筛选这个数据框,只保留包含list_a中任意一项的column_a的值所在的行。
以下是筛选单个字符串的代码:
df['column_a'].like('%string_value%')
那么我们如何针对字符串列表获得相同的结果呢?(保留列column_a值为'string'、'third'等的行)
isin
,例如:df.where(df['column_a'].isin(list_a))
。 - paultisin()
。我想检查值是否包含列表中的字符串。 - Saeed Esmaili