我有一个叫做source的DataFrame,是从mysql中获取的表格。
val source = sqlContext.read.jdbc(jdbcUrl, "source", connectionProperties)
我已通过将其转换为RDD进行了转换。
val sourceRdd = source.rdd
但我需要的是RDD[String],而不是它的RDD[Row],以便进行诸如以下转换:
source.map(rec => (rec.split(",")(0).toInt, rec)), .subtractByKey(), etc..
谢谢你。
source.printSchema
的输出吗?我想向你展示如何避免进入 RDD 级别(这是无论如何都不应该做的)。 - Jacek Laskowski