我尝试手动创建一个给定数据的Pyspark dataframe:
row_in = [(1566429545575348), (40.353977), (-111.701859)]
rdd = sc.parallelize(row_in)
schema = StructType(
[
StructField("time_epocs", DecimalType(), True),
StructField("lat", DecimalType(), True),
StructField("long", DecimalType(), True),
]
)
df_in_test = spark.createDataFrame(rdd, schema)
当我尝试展示数据框时,会出现错误,所以我不确定该如何操作。
然而,Spark文档对我来说有点复杂,当我尝试按照那些说明操作时,出现了类似的错误。
有人知道该怎么做吗?
row_in=[(1566429545575348, 40.353977,-111.701859)]
,则您的代码应该可以工作。 - pault(1)
是一个整数,而不是元组。当你只有一个元素时,需要添加逗号来创建元组(1,)
。 - Steven