在PySpark 1.6 DataFrame中,目前没有内置的Spark函数可以将字符串转换为浮点数/双精度浮点数。
假设我们有一个包含(“房屋名称”,“价格”)的RDD,两个值都是字符串。您想将价格从字符串转换为浮点数。 在PySpark中,我们可以应用map和python float函数来实现这一点。
在 PySpark 1.6 的数据框中,它无法正常工作:
有没有更好、更简单的方法来实现相同的功能呢?
假设我们有一个包含(“房屋名称”,“价格”)的RDD,两个值都是字符串。您想将价格从字符串转换为浮点数。 在PySpark中,我们可以应用map和python float函数来实现这一点。
New_RDD = RawDataRDD.map(lambda (house_name, price): (house_name, float(x.price)) # this works
在 PySpark 1.6 的数据框中,它无法正常工作:
New_DF = rawdataDF.select('house name', float('price')) # did not work
在没有内置的Pyspark函数的情况下,如何使用UDF实现此转换?我编写了以下转换UDF:
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType
def string_to_float(x):
return float(x)
udfstring_to_float = udf(string_to_float, StringType())
rawdata.withColumn("house name", udfstring_to_float("price"))
有没有更好、更简单的方法来实现相同的功能呢?
from pyspark.sql.types import DoubleType
吗?我确定在发布之前已经在 PySpark 1.6 上测试过了。 - Alexrawdata.withColumn("house name", rawdata["price"].cast(DoubleType()).alias("price"))
- AntiPawn79