I have a pyspark dataframe:
number | matricule
--------------------------------------------
1 | ["AZ 1234", "1234", "00100"]
--------------------------------------------
23 | ["1010", "12987"]
--------------------------------------------
56 | ["AZ 98989", "22222", "98989"]
--------------------------------------------
在
matricule
数组中,如果我去掉字符串"AZ"
,就会有重复的值。
我希望先删除"AZ"
字符串,然后再从matricule
数组中删除重复的值。有时候,在AZ
之后会出现一个空格,我也应该将其删除。
我已经创建了一个UDF:def remove_AZ(A)
for item in A:
if item.startswith('AZ'):
item.replace('AZ','')
udf_remove_AZ = F.udf(remove_AZ)
df = df.withColumn("AZ_2", udf_remove_AZ(df.matricule))
我在所有的 AZ_2
列中得到了null。
我应该如何从 matricule
数组的每个值中删除AZ,然后再删除重复项呢?
谢谢。