252得票9回答
Apache Spark:核心数与执行器数量的比较

我试图理解在YARN上运行Spark作业时,核心数和执行器数之间的关系。 测试环境如下: 数据节点数量: 3 数据节点机器规格: CPU: Core i7-4790 (# of cores: 4, # of threads: 8) RAM: 32GB (8GB x 4) HDD: 8...

136得票5回答
如何终止正在运行的Spark应用程序?

我有一个正在运行的Spark应用程序,它占用了所有核心资源,我的其他应用程序将无法分配任何资源。 我做了一些快速研究,人们建议使用YARN kill或/bin/spark-class来终止命令。然而,我正在使用CDH版本,/bin/spark-class根本不存在,YARN kill app...

95得票9回答
容器超出了内存限制

在Hadoop v1中,我为每个7个mapper和reducer分配了大小为1GB的槽位,我的mappers和reducers运行良好。我的机器有8G内存,8个处理器。 现在使用YARN,在同一台机器上运行相同的应用程序时,我遇到了容器错误。 默认情况下,我有以下设置: <proper...

81得票4回答
我应该为Spark选择哪种群集类型?

我刚接触Apache Spark,并了解到Spark支持三种类型的集群: 独立 - 意味着Spark将管理自己的集群 YARN - 使用Hadoop的YARN资源管理器 Mesos - Apache的专用资源管理器项目 我认为我应该先尝试独立。将来,我需要构建一个大型集群(数百个实例)。 ...

79得票2回答
Hadoop截断/不一致的计数器名称

目前,我有一个创建名称非常长的计数器的Hadoop作业。 例如,以下计数器:stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-whi...

57得票4回答
Spark yarn 集群模式与客户端模式 - 如何选择使用哪种模式?

Spark的文档描述了yarn client和yarn cluster之间的区别如下: 集群模式(cluster mode)和客户端模式(client mode)是启动Spark应用程序在YARN上的两种部署模式。在集群模式下,Spark driver运行在由YARN管理的应用程序主进程(a...

55得票6回答
什么是Spark中的yarn-client模式?

Apache Spark最近更新了版本到0.8.1,其中包含yarn-client模式。我的问题是,yarn-client模式到底意味着什么?在文档中,它是这样描述的: 使用yarn-client模式,应用程序将在本地启动。就像在Local/Mesos/Standalone模式下运行应...

55得票4回答
在YARN上的Spark日志存放在哪里?

我是spark的新手。现在我可以在yarn(2.0.0-cdh4.2.1)上运行spark 0.9.1。但是执行后没有日志。 以下命令用于运行spark示例。但是日志不像普通的MapReduce作业一样出现在历史服务器中。SPARK_JAR=./assembly/target/scala-2...

55得票3回答
如何在使用YARN客户端模式时防止Spark Executors丢失?

我有一个Spark作业,在本地少量数据下可以正常运行,但当我将其调度到YARN执行时,我始终会收到以下错误,并且UI中的所有执行程序都被逐渐移除,我的作业失败了。15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 8 on ...

53得票1回答
为什么JVM报告的已分配内存比Linux进程常驻集大小更多?

当运行启用本地内存跟踪的Java应用程序(在YARN中)时(-XX:NativeMemoryTracking=detail,请参见https://docs.oracle.com/javase/8/docs/technotes/guides/vm/nmt-8.html和https://docs....