Apache Spark 2.0:java.lang.UnsupportedOperationException: 找不到java.time.LocalDate的编码器。

12

我正在使用Apache Spark 2.0,并为DataSet创建case class以提及模式。 当我尝试根据如何在Dataset中存储自定义对象? 定义自定义编码器时,对于java.time.LocalDate,我遇到了以下异常:

java.lang.UnsupportedOperationException: No Encoder found for java.time.LocalDate
- field (class: "java.time.LocalDate", name: "callDate")
- root class: "FireService"
at org.apache.spark.sql.catalyst.ScalaReflection$.org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor(ScalaReflection.scala:598)
at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$9.apply(ScalaReflection.scala:592)
at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$9.apply(ScalaReflection.scala:583)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.immutable.List.foreach(List.scala:381)
at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
............

以下是代码:

case class FireService(callNumber: String, callDate: java.time.LocalDate)
implicit val localDateEncoder: org.apache.spark.sql.Encoder[java.time.LocalDate] = org.apache.spark.sql.Encoders.kryo[java.time.LocalDate]

val fireServiceDf = df.map(row => {
val dateFormatter = java.time.format.DateTimeFormatter.ofPattern("MM/dd /yyyy")
FireService(row.getAs[String](0),  java.time.LocalDate.parse(row.getAs[String](4), dateFormatter))
})
我们如何为Spark定义第三方API编码器? 更新 当我为整个case class创建编码器时,df.map.. 将对象映射为二进制,如下所示:
implicit val fireServiceEncoder: org.apache.spark.sql.Encoder[FireService] = org.apache.spark.sql.Encoders.kryo[FireService]

val fireServiceDf = df.map(row => {
 val dateFormatter = java.time.format.DateTimeFormatter.ofPattern("MM/dd/yyyy")
 FireService(row.getAs[String](0), java.time.LocalDate.parse(row.getAs[String](4), dateFormatter))
})

fireServiceDf: org.apache.spark.sql.Dataset[FireService] = [value: binary]

我期望得到FireService的地图,但返回的是地图的二进制数据。

1个回答

5
正如最后一个评论中所说,“如果class包含字段Bar,则需要为整个对象提供编码器。” 您需要为FireService本身提供一个隐式的编码器;否则,Spark将使用SQLImplicits.newProductEncoder[T <: Product : TypeTag]: Encoder[T]为您构建一个编码器。您可以从类型中看到它不使用任何字段的implicit编码器参数,因此它无法使用localDateEncoder的存在。

Spark可以更改此问题,例如使用Shapeless库或直接使用宏;我不知道这是否是将来的计划。


嘿,@Alexey,我明白你的意思,但我仍然不明白为什么我们需要完整的对象格式化程序的确切原因? - Harmeet Singh Taara
我明白你的意思。我也更新了问题,因为现在我的数据已经转换成二进制了。当我使用Timestamp而不是LocalDate时,dataschema会构建为FireService,否则为Binary。 - Harmeet Singh Taara
请将其作为一个单独的问题提出。一般来说,不要编辑问题以提出另一个问题。 - Alexey Romanov
4
@AlexeyRomanov 我也遇到了同样的问题。你有整个项目如何进行编码的代码示例吗?非常感谢! - Rock

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接