我正在尝试生成日期序列
from pyspark.sql import functions as F
df1 = df.withColumn("start_dt", F.to_date(F.col("start_date"), "yyyy-mm-dd")) \
.withColumn("end_dt", F.to_date(F.col("end_date"), "yyyy-mm-dd"))
df1.select("start_dt", "end_dt").show()
print("type(start_dt)", type("start_dt"))
print("type(end_dt)", type("end_dt"))
df2 = df1.withColumn("lineoffdate", F.expr("""sequence(start_dt,end_dt,1)"""))
以下是输出结果
+---------------+----------+
| start_date | end_date|
+---------------+----------+
| 2020-02-01|2020-03-21|
+---------------+----------+
type(start_dt) <class 'str'>
type(end_dt) <class 'str'>
由于数据类型不匹配,无法解析'sequence(start_dt
, end_dt
, 1)':sequence仅支持整数、时间戳或日期类型;第1行位置0;
即使将开始日期和结束日期转换为日期或时间戳,该列的类型仍为字符串,并在生成日期序列时出现上述错误。