我有一个表格,其中有1列是序列化的JSON。我想对这个JSON列应用模式推断。但我不知道要传递什么模式作为JSON提取的输入(例如:使用from_json函数)。
我可以在Scala中这样做:
val contextSchema = spark.read.json(data.select("context").as[String]).schema
val updatedData = data.withColumn("context", from_json(col("context"), contextSchema))
我如何将此解决方案转换为纯Spark-SQL?