如何在pyspark中从Spark数据框的列中删除引号 " "?

4

我有一个数据框。

+-------+-----+
|   Name|  age|
+-------+-----+
|  "aaa"|  111|
|"asasa"| 8888|
| "2323"|  999|
|"wewwe"|99999|
+-------+-----+

我希望它像这样:

我想让它成为:

+-------+-----+
|   Name|  age|
+-------+-----+
|  aaa  |  111|
| asasa | 8888|
| 2323  |  999|
| wewwe |99999|
+-------+-----+

如何使用pyspark代码在Spark 2中实现这一目标?

如果有解决方案,请回复。

2个回答

7
from pyspark.sql.functions import *
newDf = df.withColumn('Name', regexp_replace('Name', '"', ''))

简单解释:

  • 使用 withColumn 函数向数据框中添加(或替换,如果名称已存在)列。
  • regexp_replace 函数将生成一个新的列,通过替换匹配模式的所有子字符串。

1
如果你有多个列呢? - El Mehdi OUAFIQ

0
df = df.withColumn("Name", F.regexp_replace("Name", "\"", ""))

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接