14得票1回答
如何使用Elastic MapReduce API一次性提交多个作业到Hadoop?

Amazon EMR文档指出,单个Elastic MapReduce步骤可以向Hadoop提交多个作业。然而,Amazon EMR Step配置文档表明,单个步骤只能容纳一个hadoop-streaming.jar的执行(即,HadoopJarStep是HadoopJarStepConfig而...

13得票2回答
从数据框中写入新文件时遇到“文件已存在”错误。

使用Dataframe将RDD [String]写入S3上的EMR Spark。rddString .toDF() .coalesce(16) .write .option("compression", "gzip") .mode(SaveMode.Overwrite) ...

13得票2回答
亚马逊EMR - 如何为步骤设置超时时间

在Amazon AWS EMR上,有没有一种方法可以为一个步骤设置超时时间? 我在EMR上运行批处理Apache Spark作业,如果作业无法在3小时内完成,我希望作业能够按照超时时间停止。 我找不到一种方法来设置超时时间,无论是在Spark中还是Yarn中,甚至是EMR配置中都没有。 谢谢您...

13得票1回答
在EMR集群上优化GC

我正在EMR上运行用Scala编写的Spark作业,每个执行器的标准输出都充满了GC分配失败信息。2016-12-07T23:42:20.614+0000: [GC (Allocation Failure) 2016-12-07T23:42:20.614+0000: [ParNew: 9095...

12得票3回答
亚马逊EMR上的Livy服务器连接ResourceManager时出现卡顿问题

我正在尝试在Amazon EMR上部署Livy服务器。首先,我构建了Livy主分支。mvn clean package -Pscala-2.11 -Pspark-2.0 然后,我将其上传到EMR集群主节点。我设置了以下配置: livy-env.shSPARK_HOME=/usr/lib/spa...

12得票3回答
Boto EMR 添加步骤和自动终止

Python 2.7.12 boto3==1.3.1 如何向运行中的EMR集群添加步骤,并在步骤完成后终止集群,无论成功或失败? 创建集群 response = client.run_job_flow( Name=name, LogUri='s3://mybucket/...

11得票2回答
在AWS EMR上运行Spark,如何在主节点上运行驱动程序?

看起来默认情况下EMR会将Spark驱动程序部署到核心节点之一,导致主节点几乎没有被利用。是否可能在主节点上运行驱动程序?我已经尝试使用--deploy-mode参数进行了实验但没有成功。以下是我的实例组JSON定义:[ { "InstanceGroupType": "MASTER...

11得票1回答
如何在亚马逊 EMR 上运行 Spark Scala 代码。

我正在尝试在Amazon EMR上运行以下用Scala编写的Spark代码:import org.apache.spark.{SparkConf, SparkContext} object TestRunner { def main(args: Array[String]): Unit ...

11得票2回答
在运行EMR上的Spark作业时,AWS连接超时

我试图在亚马逊EMR集群中提交一个简单的Spark作业。我的集群有5个M4.2xlarge实例(1个主节点,4个从节点),每个实例都有16个vCPU和32GB内存。这是我的代码:def main(args : Array[String]): Unit = { val sparkConfig ...

11得票2回答
如何在更改配置设置后重新启动EMR中的Spark服务?

我正在使用 EMR-5.9.0,在更改了一些配置文件后,我希望重新启动服务以查看效果。我该如何实现这一点? 我尝试使用 initctl list 命令查找服务名称,但没有成功,这是其他答案中提到的方法。