最新 'emr' 问题

关联标签

22得票5回答

EMR上的Spark日志在哪里？

在运行EMR中的Spark作业时，我无法找到来自Scala中println调用的错误日志或消息。我可以在哪里找到这些内容? 我使用script-runner.jar提交了用Scala编写的Spark作业到EMR，参数为--deploy-mode设置为cluster和--master设置为ya...

scalaapache-sparkemr

10得票1回答

如何在亚马逊EMR上编辑和重新启动已终止的集群？

我对AWS和Amazon EMR都是新手。我使用自定义的引导脚本创建了一个新的集群。当我启动集群时，由于引导脚本失败而终止。我现在已经修复了我的脚本，并想要重新启动它。然而，在EMR控制台中，我找不到任何重新启动集群的选项！我在网上搜索了很多，但没有找到任何帮助指导如何重新启动终止的集群。...

javahadoopamazon-web-servicesemr

9得票1回答

在运行于AWS EMR 5.0的boto3中为MR作业添加流处理步骤

我正在尝试将我用Python编写的一些MR作业从AWS EMR 2.4迁移到AWS EMR 5.0。迄今为止，我使用的是boto 2.4，但是它不支持EMR 5.0，因此我尝试转向boto3。以前，在使用boto 2.4时，我使用StreamingStep模块指定输入位置和输出位置，以及我的m...

pythonamazon-web-servicesemrboto3

15得票2回答

终止AWS中的Spark步骤

我想在EMR Spark集群上设置一系列Spark步骤，并在当前步骤运行时间过长时终止它。然而，当我通过ssh登录到主节点并运行hadoop jobs -list命令时，主节点似乎认为没有正在运行的作业。我不想终止整个集群，因为这样做会强制我购买一个新的小时数来运行集群。请问有人能帮助我在不终...

hadoopamazon-web-servicesapache-sparkemr

19得票2回答

EMR Spark - TransportClient: 发送RPC失败

我遇到了这个错误，尝试增加集群实例、执行程序和驱动程序的内存参数，但都没有成功。17/05/07 23:17:07 ERROR TransportClient: Failed to send RPC 6465703946954088562 to ip-172-30-12-164.eu-cent...

apache-sparkhadoop-yarnemr

16得票3回答

在pyspark/EMR中对大型DataFrame使用collect()或toPandas()函数

我有一个“c3.8xlarge”机器的EMR集群，在阅读了几篇资源后，我了解到由于我使用pyspark，必须允许足够的堆外内存，因此我已按如下配置集群：一个执行器： spark.executor.memory 6g spark.executor.cores 10 spark.yarn....

pandasapache-sparkpysparkemramazon-emr

11得票2回答

如何在更改配置设置后重新启动EMR中的Spark服务？

我正在使用 EMR-5.9.0，在更改了一些配置文件后，我希望重新启动服务以查看效果。我该如何实现这一点？我尝试使用 initctl list 命令查找服务名称，但没有成功，这是其他答案中提到的方法。

apache-sparkemramazon-emr

22得票2回答

SparkUI对于pyspark - 每个阶段的相应代码是什么？

我有一些在AWS集群上运行的Pyspark程序。我通过Spark UI（见附件）监控作业。然而，我注意到与Scala或Java Spark程序不同，它们显示每个阶段对应哪些代码行，但我找不到哪个Pyspark代码行对应哪个阶段。有没有办法找出哪个阶段对应于哪个Pyspark代码行？谢谢！

apache-sparkpysparkemr

9得票1回答

使用Lambda创建EMR集群时无法启动集群创建过程

我是一名有用的助手，可以为您进行文本翻译。我试图运行一个创建集群的λ代码，但什么也没有发生，也许我对Node的使用存在误解（因为我不是很熟悉它）。这个函数非常简单： // configure AWS Dependecies var AWS = require('aws-sdk'); ...

node.jsamazon-web-servicesgruntjsemraws-lambda

9得票1回答

如何在EMR实例中正确提供spark-redshift的身份验证凭据？

我们尝试使用Spark-RedShift项目，并遵循第三个提供凭据的建议，即： IAM实例配置文件：如果您在EC2上运行并使用IAM和实例配置文件对S3进行身份验证，则必须将temporary_aws_access_key_id、temporary_aws_secret_access_key...

amazon-web-servicesapache-sparkamazon-redshiftemraws-sdk