我在使用Amazon EMR上的yarn作为集群管理器来运行Spark。我正在尝试编写一个Python应用程序,该程序可以启动并将数据缓存在内存中。如何让其他Python程序访问已缓存的数据,即:我启动一个名为Pcache的应用程序 -> 缓存数据并保持该应用程序运行状态。另一个用户可以通过运行不同的实例来访问相同的缓存数据。
我的理解是,应该能够获取已经运行的sparkContext的句柄并访问该数据。这是否可能?还是我需要在该Spark应用程序之上设置API以访问该数据?或者使用类似于Spark Job Server或Livy的东西。
我的理解是,应该能够获取已经运行的sparkContext的句柄并访问该数据。这是否可能?还是我需要在该Spark应用程序之上设置API以访问该数据?或者使用类似于Spark Job Server或Livy的东西。