得票数最多 'emr' 问题 - 第4页

关联标签

14得票1回答

如何使用Elastic MapReduce API一次性提交多个作业到Hadoop？

Amazon EMR文档指出，单个Elastic MapReduce步骤可以向Hadoop提交多个作业。然而，Amazon EMR Step配置文档表明，单个步骤只能容纳一个hadoop-streaming.jar的执行（即，HadoopJarStep是HadoopJarStepConfig而...

hadoopamazon-web-serviceshadoop-streamingemr

13得票2回答

从数据框中写入新文件时遇到“文件已存在”错误。

使用Dataframe将RDD [String]写入S3上的EMR Spark。rddString .toDF() .coalesce(16) .write .option("compression", "gzip") .mode(SaveMode.Overwrite) ...

apache-sparkemr

13得票2回答

亚马逊EMR - 如何为步骤设置超时时间

在Amazon AWS EMR上，有没有一种方法可以为一个步骤设置超时时间? 我在EMR上运行批处理Apache Spark作业，如果作业无法在3小时内完成，我希望作业能够按照超时时间停止。我找不到一种方法来设置超时时间，无论是在Spark中还是Yarn中，甚至是EMR配置中都没有。谢谢您...

apache-sparkhadoop-yarnemramazon-emr

13得票1回答

在EMR集群上优化GC

我正在EMR上运行用Scala编写的Spark作业，每个执行器的标准输出都充满了GC分配失败信息。2016-12-07T23:42:20.614+0000: [GC (Allocation Failure) 2016-12-07T23:42:20.614+0000: [ParNew: 9095...

apache-sparkgarbage-collectionjvmemramazon-emr

12得票3回答

亚马逊EMR上的Livy服务器连接ResourceManager时出现卡顿问题

我正在尝试在Amazon EMR上部署Livy服务器。首先，我构建了Livy主分支。mvn clean package -Pscala-2.11 -Pspark-2.0 然后，我将其上传到EMR集群主节点。我设置了以下配置： livy-env.shSPARK_HOME=/usr/lib/spa...

apache-sparkhadoop-yarnclouderaemr

12得票3回答

Boto EMR 添加步骤和自动终止

Python 2.7.12 boto3==1.3.1 如何向运行中的EMR集群添加步骤，并在步骤完成后终止集群，无论成功或失败? 创建集群 response = client.run_job_flow( Name=name, LogUri='s3://mybucket/...

pythonamazon-web-servicesboto3emr

11得票2回答

在AWS EMR上运行Spark，如何在主节点上运行驱动程序？

看起来默认情况下EMR会将Spark驱动程序部署到核心节点之一，导致主节点几乎没有被利用。是否可能在主节点上运行驱动程序？我已经尝试使用--deploy-mode参数进行了实验但没有成功。以下是我的实例组JSON定义：[ { "InstanceGroupType": "MASTER...

amazon-web-servicesapache-sparkemr

11得票1回答

如何在亚马逊 EMR 上运行 Spark Scala 代码。

我正在尝试在Amazon EMR上运行以下用Scala编写的Spark代码：import org.apache.spark.{SparkConf, SparkContext} object TestRunner { def main(args: Array[String]): Unit ...

scalaamazon-web-servicesapache-sparkemramazon-emr

11得票2回答

在运行EMR上的Spark作业时，AWS连接超时

我试图在亚马逊EMR集群中提交一个简单的Spark作业。我的集群有5个M4.2xlarge实例（1个主节点，4个从节点），每个实例都有16个vCPU和32GB内存。这是我的代码：def main(args : Array[String]): Unit = { val sparkConfig ...

hadoopapache-sparkamazon-s3apache-spark-sqlemr

11得票2回答

如何在更改配置设置后重新启动EMR中的Spark服务？

我正在使用 EMR-5.9.0，在更改了一些配置文件后，我希望重新启动服务以查看效果。我该如何实现这一点？我尝试使用 initctl list 命令查找服务名称，但没有成功，这是其他答案中提到的方法。

apache-sparkemramazon-emr