我想将
我试过先将它转换为
Array[org.apache.spark.sql.Row]
转换为DataFrame
,请问有更好的方法吗?我试过先将它转换为
RDD
,然后再转换成Dataframe
,但当我对DataFrame
进行任何操作时,会出现异常。val arrayOfRows = myDataFrame.collect().map(t => myfun(t))
val distDataRDD = sc.parallelize(arrayOfRows)
val newDataframe = sqlContext.createDataFrame(distDataRDD,myschema)
这里的myfun()
是一个函数,它返回Row(org.apache.spark.sql.Row)
。
数组中的内容是正确的,我能够打印出来而没有任何问题。
但是当我尝试对RDD
中的记录进行计数时,它给了我计数以及一个警告,提示其中一个阶段包含了一个非常大的任务。我想我可能在做什么错误的事情。请帮忙解决。
val arrayOfRows = myDataFrame.collect().map(t => myfun(t))
,我就收到了错误提示。 - rvp