什么是Spark转换会导致Shuffle？

Question

什么是Spark转换会导致Shuffle？

45

我在Spark文档中难以找到导致洗牌(shuffle)和不导致的操作。在这个列表中，哪些操作会导致洗牌(shuffle)，哪些不会？

map和filter不会导致洗牌(shuffle)。然而，其他操作我不确定。

map(func)
filter(func)
flatMap(func)
mapPartitions(func)
mapPartitionsWithIndex(func)
sample(withReplacement, fraction, seed)
union(otherDataset)
intersection(otherDataset)
distinct([numTasks]))
groupByKey([numTasks])
reduceByKey(func, [numTasks])
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks])
join(otherDataset, [numTasks])
cogroup(otherDataset, [numTasks])
cartesian(otherDataset)
pipe(command, [envVars])
coalesce(numPartitions)

- poiuytrez

4个回答

25

以下是可能会导致洗牌的操作列表： cogroup groupWith

join: 哈希分区

leftOuterJoin: 哈希分区

rightOuterJoin: 哈希分区

groupByKey: 哈希分区

reduceByKey: 哈希分区

combineByKey: 哈希分区

sortByKey: 范围分区

distinct

intersection: 哈希分区

repartition

coalesce

来源：Spark和Scala的大数据分析，通过分区进行优化，Coursera

- ruhong

谢谢，我认为这应该是答案，但我不是答案的保管人 ;) - SparkleGoat

5

这可能会对你有所帮助： https://spark.apache.org/docs/latest/programming-guide.html#shuffle-operations 或者这个链接： http://www.slideshare.net/SparkSummit/dev-ops-training，从第208页开始。

在第209页中，“使用'numPartitions'的转换（如distinct），可能会进行洗牌操作”。

- Glenn Strycker

4

这里是关于洗牌转换的概括性说明。

可以引起洗牌的转换包括重新分区操作，如repartition和coalesce，除计数外的ByKey操作，如groupByKey和reduceByKey，以及连接操作，如cogroup和join。来源

- mrsrinivas

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- aaronman · Accepted Answer

实际上，即使没有文档，也非常容易找到这个信息。对于这些函数中的任何一个，只需创建一个RDD并调用debug string即可。下面是一个示例，您可以自己完成其余部分。

scala> val a  = sc.parallelize(Array(1,2,3)).distinct
scala> a.toDebugString
MappedRDD[5] at distinct at <console>:12 (1 partitions)
  MapPartitionsRDD[4] at distinct at <console>:12 (1 partitions)
    **ShuffledRDD[3] at distinct at <console>:12 (1 partitions)**
      MapPartitionsRDD[2] at distinct at <console>:12 (1 partitions)
        MappedRDD[1] at distinct at <console>:12 (1 partitions)
          ParallelCollectionRDD[0] at parallelize at <console>:12 (1 partitions)

正如您所看到的，distinct会创建一个洗牌。找出这种方式特别重要，而不是通过文档，因为在某些情况下，某些函数需要或不需要进行洗牌。例如，连接通常需要进行洗牌，但如果您连接两个来自同一RDD分支的RDD，则Spark有时会省略洗牌。