我在我的Spark/Scala代码中有一个类型为DataFrame的变量rawData
。
我想要删除第一个元素,类似于这样:
rawData.drop(1)
然而,drop
函数不可用。
最简单的方法是删除第一个元素?
我在我的Spark/Scala代码中有一个类型为DataFrame的变量rawData
。
我想要删除第一个元素,类似于这样:
rawData.drop(1)
然而,drop
函数不可用。
最简单的方法是删除第一个元素?
df.mapPartitions(iterator => iterator.drop(1))
如果你想从第一个分区中删除第一个元素,可以使用以下方法:
val rdd = df.rdd.mapPartitionsWithIndex{
case (index, iterator) => if(index==0) iterator.drop(1) else iterator
}
sqlContext.createDataFrame(rdd, df.schema)
这两种解决方案都不太优雅,看起来像是不良的实践。了解完整的用例会很有趣,也许会有更好的方法。
RDD
,而我有一个DataFrame
。 - bsky