创建一个新的数据框架，并将字段值设置为空/空值。

Question

创建一个新的数据框架，并将字段值设置为空/空值。

scalaapache-sparkdataframeapache-spark-sql

45

我正在从现有的数据框创建一个新的数据框，但需要在这个新的数据框中添加新的列（下面的代码中是"field1"）。我该如何做？如果可以提供可行的样例代码，将不胜感激。

val edwDf = omniDataFrame 
  .withColumn("field1", callUDF((value: String) => None)) 
  .withColumn("field2",
    callUdf("devicetypeUDF", (omniDataFrame.col("some_field_in_old_df")))) 

edwDf
  .select("field1", "field2")
  .save("odsoutdatafldr", "com.databricks.spark.csv");

- sshroff

2个回答

20

只是扩展了@zero323提供的完美答案，这里提供了一个可以从Spark 2.2.0开始使用的解决方案。

import org.apache.spark.sql.functions.typedLit

df.withColumn("foobar", typedLit[Option[String]](None)).printSchema
root
 |-- foo: integer (nullable = false)
 |-- bar: string (nullable = true)
 |-- foobar: string (nullable = true)

这类似于第三种解决方案，但不使用任何用户定义函数。

- sanyi14ka

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- zero323 · Accepted Answer

可以使用lit(null)：

import org.apache.spark.sql.functions.{lit, udf}

case class Record(foo: Int, bar: String)
val df = Seq(Record(1, "foo"), Record(2, "bar")).toDF

val dfWithFoobar = df.withColumn("foobar", lit(null: String))

这里的一个问题是列类型为 null：

scala> dfWithFoobar.printSchema
root
 |-- foo: integer (nullable = false)
 |-- bar: string (nullable = true)
 |-- foobar: null (nullable = true)

如果不进行特殊处理，csv写入器不会保留这种数据类型。如果有强制要求，您可以将该列转换为特定类型（比如字符串），使用DataType。

import org.apache.spark.sql.types.StringType

df.withColumn("foobar", lit(null).cast(StringType))

或字符串描述

df.withColumn("foobar", lit(null).cast("string"))

或者使用这样的UDF：

val getNull = udf(() => None: Option[String]) // Or some other type

df.withColumn("foobar", getNull()).printSchema
root
 |-- foo: integer (nullable = false)
 |-- bar: string (nullable = true)
 |-- foobar: string (nullable = true)

这里可以找到Python的等效方法: 在Spark DataFrame中添加一个空列