我刚刚创建了一个Python列表,其中包含range(1,100000)
。
使用SparkContext执行了以下步骤:
a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])
c = a.zip(b)
>>> [(1, 1), (2, 2), -----]
sum = sc.accumulator(0)
c.foreach(lambda (x, y): life.add((y-x)))
报出以下警告:
ARN TaskSetManager:第3阶段包含一个非常大(4644 KB)的任务。建议的最大任务大小为100 KB。
如何解决此警告?有没有办法处理大小?还会影响大数据的时间复杂度吗?