Spark SQL 将数据集转换为数据框架。

Question

Spark SQL 将数据集转换为数据框架。

10

如何将数据集对象转换为数据帧？在我的示例中，我正在将JSON文件转换为数据帧，并将其转换为数据集。在数据集中，我添加了一些额外的属性（newColumn），并将其转换回数据帧。以下是我的示例代码：

val empData = sparkSession.read.option("header", "true").option("inferSchema", "true").option("multiline", "true").json(filePath)

.....

 import sparkSession.implicits._
    val res = empData.as[Emp]

    //for (i <- res.take(4)) println(i.name + " ->" + i.newColumn)

    val s = res.toDF();

    s.printSchema()

  }
  case class Emp(name: String, gender: String, company: String, address: String) {
    val newColumn = if (gender == "male") "Not-allowed" else "Allowed"
  }

我期望在 s.printschema() 的输出结果中添加一个名为 newColumn 的新列名，但实际上没有出现。这是为什么？有什么原因吗？我该如何实现呢？

- Learn Hadoop

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user10490512 · Accepted Answer

Product Encoder 的输出架构完全基于其构造函数签名的确定。因此，发生在构造函数体内的任何内容都将被简单地丢弃。

您可以...

empData.map(x => (x, x.newColumn)).toDF("value", "newColumn")