7得票1回答
如何使Spark驱动程序对主节点重启具有弹性?

我有一个Spark Standalone集群(不是YARN/Mesos),并且有一个运行的驱动程序(在客户端模式下),它与该集群交互以执行其任务。但是,如果我关闭并重新启动Spark主节点和工作节点,则驱动程序不会重新连接到主节点并恢复其工作。 也许我对Spark Master和驱动程序之间...

81得票4回答
我应该为Spark选择哪种群集类型?

我刚接触Apache Spark,并了解到Spark支持三种类型的集群: 独立 - 意味着Spark将管理自己的集群 YARN - 使用Hadoop的YARN资源管理器 Mesos - Apache的专用资源管理器项目 我认为我应该先尝试独立。将来,我需要构建一个大型集群(数百个实例)。 ...

40得票3回答
Apache Spark:客户端和集群部署模式的区别

在Spark Standalone集群中,客户端和集群部署模式有什么区别?我如何设置我的应用程序将在哪种模式下运行? 我们有一个带有三台机器的Spark Standalone集群,它们都安装了Spark 1.6.1: - 主节点,也是我们使用spark-submit运行应用程序的地方 ...

88得票4回答
工作进程、工作进程实例和执行器之间的关系是什么?

在Spark Standalone模式下,存在主节点和工作节点。 以下是几个问题: 2个工作实例是否意味着一个工作节点有2个工作进程? 每个工作实例是否持有特定应用程序的执行器(管理存储和任务),还是一个工作节点拥有一个执行器? 是否有流程图解释Spark如何在运行时工作,例如单词计数?

32得票2回答
了解Spark:集群管理器、主节点和驱动节点

阅读了这个问题,我想提出以下附加问题: 集群管理器是长期运行的服务,它在哪个节点上运行? 主节点和驱动节点可能是同一台机器吗?我认为应该有一个规定说明这两个节点应该不同? 在驱动程序节点失败的情况下,谁负责重新启动应用程序?会发生什么?即主节点、集群管理器和工作节点会以何种顺序参与其中(如...

14得票3回答
当Spark主节点失败时会发生什么?

驱动程序是否需要不断访问主节点?还是仅需要获取初始资源分配?如果在创建了Spark上下文之后主节点不可用会发生什么?这是否意味着应用程序将失败?

11得票4回答
如何在standalone主节点上并行运行多个spark应用程序

我使用Spark(1.6.1)独立主节点,在同一台Spark主机上运行多个应用程序。在第一个应用程序之后提交的所有应用程序始终保持“等待”状态。我还注意到,正在运行的应用程序占用了所有工作节点的核心总和。 我已经尝试通过使用SPARK_EXECUTOR_CORES来限制它,但它适用于yarn配...

11得票1回答
Spark独立模式下的执行器数量/核心控制

我有一个装有16个核心和64GB内存的Spark独立服务器,主节点和工作节点都在同一台服务器上运行。我没有启用动态分配。我的Spark版本是2.0。 但是我不理解的是,当我提交作业并指定:--num-executors 2 --executor-cores 2 只应使用4个内核。但是当提交作...

9得票1回答
Spark工作器在驱动程序命令关闭后停止了工作

基本上,Master节点也扮演着其中一个从节点的角色。一旦主节点上的从节点完成了处理,它就会调用SparkContext停止执行,然后该命令会传播到所有的从节点,使得处理在中途停止。 其中一个worker的错误日志: INFO SparkHadoopMapRedUtil: attempt...

8得票3回答
在Docker容器中运行Spark驱动程序 - 执行程序没有回连到驱动程序?

更新:问题已解决。Docker镜像在此:docker-spark-submit 我在Docker容器中运行带有fat jar的spark-submit。我的独立Spark集群在3个虚拟机上运行,其中一个是master,另外两个是worker。从worker机器上的执行者日志中,我看到执行者具...