我正在阅读Spark教材,看到了转换和操作,又看到了RDD函数,让我感到困惑。请问有人能解释一下转换和Spark RDD函数之间的基本区别吗?
两者都用于更改RDD数据内容并返回一个新的RDD,但我想知道精确的解释。
两者都用于更改RDD数据内容并返回一个新的RDD,但我想知道精确的解释。
由于Spark的集合是不可变的,一旦RDD被创建,我们就无法更改数据。
转换是应用于RDD并产生其他RDD作为输出的函数(例如:map
、flatMap
、filter
、join
、groupBy
等)。
操作是应用于RDD并产生非RDD(数组、列表等)数据作为输出的函数(例如:count
、saveAsText
、foreach
、collect
等)。