88得票4回答
工作进程、工作进程实例和执行器之间的关系是什么?

在Spark Standalone模式下,存在主节点和工作节点。 以下是几个问题: 2个工作实例是否意味着一个工作节点有2个工作进程? 每个工作实例是否持有特定应用程序的执行器(管理存储和任务),还是一个工作节点拥有一个执行器? 是否有流程图解释Spark如何在运行时工作,例如单词计数?

81得票4回答
我应该为Spark选择哪种群集类型?

我刚接触Apache Spark,并了解到Spark支持三种类型的集群: 独立 - 意味着Spark将管理自己的集群 YARN - 使用Hadoop的YARN资源管理器 Mesos - Apache的专用资源管理器项目 我认为我应该先尝试独立。将来,我需要构建一个大型集群(数百个实例)。 ...

40得票3回答
Apache Spark:客户端和集群部署模式的区别

在Spark Standalone集群中,客户端和集群部署模式有什么区别?我如何设置我的应用程序将在哪种模式下运行? 我们有一个带有三台机器的Spark Standalone集群,它们都安装了Spark 1.6.1: - 主节点,也是我们使用spark-submit运行应用程序的地方 ...

32得票2回答
了解Spark:集群管理器、主节点和驱动节点

阅读了这个问题,我想提出以下附加问题: 集群管理器是长期运行的服务,它在哪个节点上运行? 主节点和驱动节点可能是同一台机器吗?我认为应该有一个规定说明这两个节点应该不同? 在驱动程序节点失败的情况下,谁负责重新启动应用程序?会发生什么?即主节点、集群管理器和工作节点会以何种顺序参与其中(如...

14得票3回答
当Spark主节点失败时会发生什么?

驱动程序是否需要不断访问主节点?还是仅需要获取初始资源分配?如果在创建了Spark上下文之后主节点不可用会发生什么?这是否意味着应用程序将失败?

11得票1回答
Spark独立模式下的执行器数量/核心控制

我有一个装有16个核心和64GB内存的Spark独立服务器,主节点和工作节点都在同一台服务器上运行。我没有启用动态分配。我的Spark版本是2.0。 但是我不理解的是,当我提交作业并指定:--num-executors 2 --executor-cores 2 只应使用4个内核。但是当提交作...

11得票4回答
如何在standalone主节点上并行运行多个spark应用程序

我使用Spark(1.6.1)独立主节点,在同一台Spark主机上运行多个应用程序。在第一个应用程序之后提交的所有应用程序始终保持“等待”状态。我还注意到,正在运行的应用程序占用了所有工作节点的核心总和。 我已经尝试通过使用SPARK_EXECUTOR_CORES来限制它,但它适用于yarn配...

9得票1回答
Spark工作器在驱动程序命令关闭后停止了工作

基本上,Master节点也扮演着其中一个从节点的角色。一旦主节点上的从节点完成了处理,它就会调用SparkContext停止执行,然后该命令会传播到所有的从节点,使得处理在中途停止。 其中一个worker的错误日志: INFO SparkHadoopMapRedUtil: attempt...

8得票3回答
在Docker容器中运行Spark驱动程序 - 执行程序没有回连到驱动程序?

更新:问题已解决。Docker镜像在此:docker-spark-submit 我在Docker容器中运行带有fat jar的spark-submit。我的独立Spark集群在3个虚拟机上运行,其中一个是master,另外两个是worker。从worker机器上的执行者日志中,我看到执行者具...

7得票2回答
Spark Apache中,Worker无法连接到Master

我正在使用独立集群管理器部署一个Spark Apache应用程序。 我的架构使用2台Windows机器:一台设置为主节点,另一台设置为从节点(worker)。 主节点:我在其上运行命令:\bin>spark-class org.apache.spark.deploy.master.Ma...