在Spark DataFrame中,当我试图将一个字符串字段转换为TimestampType时,输出值带有微秒精度(yyyy-MM-dd HH:mm:ss.S)。但我需要的格式是yyyy-MM-dd HH:mm:ss,即不包括微秒精度。此外,我希望在写入Parquet文件时将其保存为时间戳字段,因此我的字段数据类型应该是格式为yyyy-MM-dd HH:mm:ss的时间戳。
我尝试使用TimestampType作为:
在上面的代码中,我们得到了正确的时间戳格式,但是当我们打印Schema时,datetime字段的类型是字符串,而我需要在此处使用时间戳类型。
现在,如果我尝试将该字段转换为时间戳,格式将被设置为微秒精度,这并不是想要的结果。
我希望格式为
我尝试使用TimestampType作为:
col("column_A").cast(TimestampType)
or
col("column_A").cast("timestamp")
将字段转换为时间戳。这些能够将字段转换为带有微秒精度的时间戳。
有人能帮忙将时间戳数据类型保存到具有所需格式规范的parquet文件中吗?
编辑
输入:
val a = sc.parallelize(List(("a", "2017-01-01 12:02:00.0"), ("b", "2017-02-01 11:22:30"))).toDF("cola", "colb")
scala> a.withColumn("datetime", date_format(col("colb"), "yyyy-MM-dd HH:mm:ss")).show(false)
+----+---------------------+-------------------+
|cola|colb |datetime |
+----+---------------------+-------------------+
|a |2017-01-01 12:02:00.0|2017-01-01 12:02:00|
|b |2017-02-01 11:22:30 |2017-02-01 11:22:30|
+----+---------------------+-------------------+
scala> a.withColumn("datetime", date_format(col("colb"), "yyyy-MM-dd HH:mm:ss")).printSchema
root
|-- cola: string (nullable = true)
|-- colb: string (nullable = true)
|-- datetime: string (nullable = true)
在上面的代码中,我们得到了正确的时间戳格式,但是当我们打印Schema时,datetime字段的类型是字符串,而我需要在此处使用时间戳类型。
现在,如果我尝试将该字段转换为时间戳,格式将被设置为微秒精度,这并不是想要的结果。
scala> import org.apache.spark.sql.types._
import org.apache.spark.sql.types._
scala> val a = sc.parallelize(List(("a", "2017-01-01 12:02:00.0"), ("b", "2017-02-01 11:22:30"))).toDF("cola", "colb")
a: org.apache.spark.sql.DataFrame = [cola: string, colb: string]
scala> a.withColumn("datetime", date_format(col("colb").cast(TimestampType), "yyyy-MM-dd HH:mm:ss").cast(TimestampType)).show(false)
+----+---------------------+---------------------+
|cola|colb |datetime |
+----+---------------------+---------------------+
|a |2017-01-01 12:02:00.0|2017-01-01 12:02:00.0|
|b |2017-02-01 11:22:30 |2017-02-01 11:22:30.0|
+----+---------------------+---------------------+
scala> a.withColumn("datetime", date_format(col("colb").cast(TimestampType), "yyyy-MM-dd HH:mm:ss").cast(TimestampType)).printSchema
root
|-- cola: string (nullable = true)
|-- colb: string (nullable = true)
|-- datetime: timestamp (nullable = true)
我希望格式为
yyyy-MM-dd HH:mm:ss
,字段的数据类型为timestamp
。谢谢。