我想知道是否可以使用Apache Spark进行以下设置:
分布式数据库 <-> | 常驻后端 <---> 前端 | 服务器 | ___________________ Spark
我希望能够在后端利用Spark的MLlib和Spark Streaming,并利用Spark的速度进行后端计算(统计,机器学习)。
Spark的架构似乎需要一次提交一个编译代码的JAR文件进行计算。然而,由于整个设置是为多用户Web应用程序和外部API而设计的,因此通过RPC与前端通信的长时间运行的后端服务器似乎更加直观。
这是否可能,在没有太多黑客攻击的情况下?似乎Spark Streaming的性质需要有一个常驻服务器。 JavaStreamingContext#awaitTermination() 是尝试实现这种应用程序的唯一方法吗?
我看到我尝试做的一个可能的问题,即使是可能的,也是解决建立连接的后端的问题。
非常感谢!
分布式数据库 <-> | 常驻后端 <---> 前端 | 服务器 | ___________________ Spark
我希望能够在后端利用Spark的MLlib和Spark Streaming,并利用Spark的速度进行后端计算(统计,机器学习)。
Spark的架构似乎需要一次提交一个编译代码的JAR文件进行计算。然而,由于整个设置是为多用户Web应用程序和外部API而设计的,因此通过RPC与前端通信的长时间运行的后端服务器似乎更加直观。
这是否可能,在没有太多黑客攻击的情况下?似乎Spark Streaming的性质需要有一个常驻服务器。 JavaStreamingContext#awaitTermination() 是尝试实现这种应用程序的唯一方法吗?
我看到我尝试做的一个可能的问题,即使是可能的,也是解决建立连接的后端的问题。
非常感谢!