已在运行的Spark应用程序是否可以获取SparkContext？

Question

已在运行的Spark应用程序是否可以获取SparkContext？

5

我在使用Amazon EMR上的yarn作为集群管理器来运行Spark。我正在尝试编写一个Python应用程序，该程序可以启动并将数据缓存在内存中。如何让其他Python程序访问已缓存的数据，即：我启动一个名为Pcache的应用程序 -> 缓存数据并保持该应用程序运行状态。另一个用户可以通过运行不同的实例来访问相同的缓存数据。

我的理解是，应该能够获取已经运行的sparkContext的句柄并访问该数据。这是否可能？还是我需要在该Spark应用程序之上设置API以访问该数据？或者使用类似于Spark Job Server或Livy的东西。

- Dushyant

2个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Daniel Darabos · Answer 1

无法在多个进程之间共享SparkContext。实际上，您的选项是自己构建API，其中一个服务器持有SparkContext，其客户端告诉它如何处理它，或使用Spark Job Server，这是相同的通用实现。

- Cosmin · Answer 2

我认为这可以帮助你。:)

classmethod getOrCreate(conf=None)
Get or instantiate a SparkContext and register it as a singleton object.

Parameters: conf – SparkConf (optional)

http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.getOrCreate