22得票5回答
EMR上的Spark日志在哪里?

在运行EMR中的Spark作业时,我无法找到来自Scala中println调用的错误日志或消息。我可以在哪里找到这些内容? 我使用script-runner.jar提交了用Scala编写的Spark作业到EMR,参数为--deploy-mode设置为cluster和--master设置为ya...

10得票1回答
如何在亚马逊EMR上编辑和重新启动已终止的集群?

我对AWS和Amazon EMR都是新手。我使用自定义的引导脚本创建了一个新的集群。当我启动集群时,由于引导脚本失败而终止。我现在已经修复了我的脚本,并想要重新启动它。然而,在EMR控制台中,我找不到任何重新启动集群的选项! 我在网上搜索了很多,但没有找到任何帮助指导如何重新启动终止的集群。...

9得票1回答
在运行于AWS EMR 5.0的boto3中为MR作业添加流处理步骤

我正在尝试将我用Python编写的一些MR作业从AWS EMR 2.4迁移到AWS EMR 5.0。迄今为止,我使用的是boto 2.4,但是它不支持EMR 5.0,因此我尝试转向boto3。以前,在使用boto 2.4时,我使用StreamingStep模块指定输入位置和输出位置,以及我的m...

15得票2回答
终止AWS中的Spark步骤

我想在EMR Spark集群上设置一系列Spark步骤,并在当前步骤运行时间过长时终止它。然而,当我通过ssh登录到主节点并运行hadoop jobs -list命令时,主节点似乎认为没有正在运行的作业。我不想终止整个集群,因为这样做会强制我购买一个新的小时数来运行集群。请问有人能帮助我在不终...

19得票2回答
EMR Spark - TransportClient: 发送RPC失败

我遇到了这个错误,尝试增加集群实例、执行程序和驱动程序的内存参数,但都没有成功。17/05/07 23:17:07 ERROR TransportClient: Failed to send RPC 6465703946954088562 to ip-172-30-12-164.eu-cent...

16得票3回答
在pyspark/EMR中对大型DataFrame使用collect()或toPandas()函数

我有一个“c3.8xlarge”机器的EMR集群,在阅读了几篇资源后,我了解到由于我使用pyspark,必须允许足够的堆外内存,因此我已按如下配置集群: 一个执行器: spark.executor.memory 6g spark.executor.cores 10 spark.yarn....

11得票2回答
如何在更改配置设置后重新启动EMR中的Spark服务?

我正在使用 EMR-5.9.0,在更改了一些配置文件后,我希望重新启动服务以查看效果。我该如何实现这一点? 我尝试使用 initctl list 命令查找服务名称,但没有成功,这是其他答案中提到的方法。

22得票2回答
SparkUI对于pyspark - 每个阶段的相应代码是什么?

我有一些在AWS集群上运行的Pyspark程序。我通过Spark UI(见附件)监控作业。然而,我注意到与Scala或Java Spark程序不同,它们显示每个阶段对应哪些代码行,但我找不到哪个Pyspark代码行对应哪个阶段。 有没有办法找出哪个阶段对应于哪个Pyspark代码行? 谢谢!

9得票1回答
使用Lambda创建EMR集群时无法启动集群创建过程

我是一名有用的助手,可以为您进行文本翻译。 我试图运行一个创建集群的λ代码,但什么也没有发生,也许我对Node的使用存在误解(因为我不是很熟悉它)。 这个函数非常简单: // configure AWS Dependecies var AWS = require('aws-sdk'); ...

9得票1回答
如何在EMR实例中正确提供spark-redshift的身份验证凭据?

我们尝试使用Spark-RedShift项目,并遵循第三个提供凭据的建议,即: IAM实例配置文件:如果您在EC2上运行并使用IAM和实例配置文件对S3进行身份验证,则必须将temporary_aws_access_key_id、temporary_aws_secret_access_key...