19得票2回答
EMR Spark - TransportClient: 发送RPC失败

我遇到了这个错误,尝试增加集群实例、执行程序和驱动程序的内存参数,但都没有成功。17/05/07 23:17:07 ERROR TransportClient: Failed to send RPC 6465703946954088562 to ip-172-30-12-164.eu-cent...

17得票2回答
AWS EMR在集群中的所有已运行机器上执行“引导程序”脚本

我有一个EMR集群,它一直运行着24/7。我不能关闭它并启动新的。 我想要做的是在已经运行的集群上执行类似于引导操作的东西,最好使用Python和boto或AWS CLI。 我可以想象分为2步来完成: 1)在所有正在运行的实例上运行脚本(如果可能的话,最好从boto中进行) 2)将脚本...

16得票3回答
在pyspark/EMR中对大型DataFrame使用collect()或toPandas()函数

我有一个“c3.8xlarge”机器的EMR集群,在阅读了几篇资源后,我了解到由于我使用pyspark,必须允许足够的堆外内存,因此我已按如下配置集群: 一个执行器: spark.executor.memory 6g spark.executor.cores 10 spark.yarn....

15得票2回答
提升Spark中的yarn.executor.memoryOverhead

我正在尝试在EMR上运行一个(py)Spark作业,该作业将处理大量数据。目前我的作业因以下错误信息而失败:Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 GB physical memor...

15得票3回答
如何在EMR上运行spark-sql时抑制INFO消息?

我正在按照在Amazon Elastic MapReduce上运行Spark和Spark SQL的教程,在EMR上运行Spark: 这个教程将指引你在Amazon EMR集群上安装和操作Spark,一个用于大规模数据处理的快速通用引擎。你还将使用Spark SQL创建和查询Amazon...

15得票5回答
强制使用服务端加密保护S3存储桶

我想设置一个 S3 存储桶的策略,使得上传到该存储桶的所有请求都将使用服务器端加密,即使请求头中没有指定也是如此。 我见过这篇文章(Amazon S3 Server Side Encryption Bucket Policy problems),其中有人成功设置了一个存储桶策略,拒绝所有未指...

15得票1回答
从命令行获取一个Yarn配置

在 EMR 中,是否有一种使用 yarn 命令获取配置键特定值的方法? 例如,我想要做类似这样的事情yarn get-config yarn.scheduler.maximum-allocation-mb

15得票2回答
终止AWS中的Spark步骤

我想在EMR Spark集群上设置一系列Spark步骤,并在当前步骤运行时间过长时终止它。然而,当我通过ssh登录到主节点并运行hadoop jobs -list命令时,主节点似乎认为没有正在运行的作业。我不想终止整个集群,因为这样做会强制我购买一个新的小时数来运行集群。请问有人能帮助我在不终...

15得票4回答
如何在EMR中设置自定义环境变量,以便在Spark应用程序中使用

我需要在EMR中设置自定义环境变量,以便在运行Spark应用程序时可用。 我已经尝试添加了这个: ... --configurations '[ ...

14得票3回答
如何清理已终止的AWS EMR集群列表?

我在我的AWS账户中有大约88个被终止的EMR集群。 我该如何清理被终止的EMR集群列表? AWS会清理列表吗? 为什么我看不到已终止的集群被从集群列表中删除,就像EC2实例页面那样呢? 谢谢! Nicholas