在循环内使用sparkDF.write.saveAsTable()会导致作业之间的延迟呈指数级增长。

Question

4

我需要在一个for循环中执行一组不同的Hive查询。

hc=HiveContext(sc)
queryList=[set of queries]
for i in range(0,X):
    hc.sql(queryList[i])
    sparkDF.write.saveAsTable('hiveTable', mode='append')

尽管这段代码在较小的X值上运行得像魔法一样，但当X>100时会出现问题。每次saveAsTable作业之间的延迟呈指数增长，但每个作业大致需要5秒钟的常数时间。

以下是我尝试过的解决方法，但都没有成功：

是否有类似的选项，例如我每次调用saveAsTable函数时都创建一个与hive的连接，并关闭它？或者清理driver？

- Mike

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Nitin · Accepted Answer

这是因为您使用了for循环，该循环在Spark驱动程序模式下执行，而不会分布在集群工作节点上，也就是说它没有利用并行性的优势或者没有在工作节点上执行。尝试使用带有分区的parallelize创建RDD，这将有助于在工作节点上生成作业。

或者，如果您只想处理hiveContext，可以创建全局HiveContext，例如：val hiveCtx = new HiveContext(sc)，并在循环中重复使用。

您还可以在运行集群作业时更改/优化执行器的数量，以提高性能。