已在运行的Spark应用程序是否可以获取SparkContext?

5
我在使用Amazon EMR上的yarn作为集群管理器来运行Spark。我正在尝试编写一个Python应用程序,该程序可以启动并将数据缓存在内存中。如何让其他Python程序访问已缓存的数据,即:我启动一个名为Pcache的应用程序 -> 缓存数据并保持该应用程序运行状态。另一个用户可以通过运行不同的实例来访问相同的缓存数据。
我的理解是,应该能够获取已经运行的sparkContext的句柄并访问该数据。这是否可能?还是我需要在该Spark应用程序之上设置API以访问该数据?或者使用类似于Spark Job Server或Livy的东西。
2个回答

0

无法在多个进程之间共享SparkContext。实际上,您的选项是自己构建API,其中一个服务器持有SparkContext,其客户端告诉它如何处理它,或使用Spark Job Server,这是相同的通用实现。


-2

欢迎提供潜在解决方案的链接,但请添加链接周围的上下文,以便其他用户了解它是什么以及为什么存在。在引用重要链接的最相关部分时,请始终考虑到目标站点无法访问或永久离线的情况。请注意,作为“几乎只是指向外部网站的链接”是为什么会删除某些答案?的可能原因之一。 - Petter Friberg

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接