10得票2回答
在使用AWS EMR集群上的SparkLauncher时缺少SPARK_HOME

我正在使用EMR 5.0和Spark 2.0.0。 我尝试使用org.apache.spark.launcher.SparkLauncher从Scala Spark应用程序运行子Spark应用程序。 我需要使用setSparkHome设置SPARK_HOME: var handle = new...

10得票2回答
我该如何将PySpark(本地计算机)连接到我的EMR集群?

我已经部署了一个包含Apache Spark引导程序的3节点AWS ElasticMapReduce集群。我可以通过SSH从本地访问主节点: ssh -i <key> hadoop@ec2-xx-xxx-xxx-xxx.compute-1.amazonaws.com 在进入主节...

10得票1回答
YARN:Spark中“number-of-executors”和“executor-cores”的区别是什么?

我正在学习在AWS EMR上使用Spark。在这个过程中,我试图理解执行器数量(--num-executors)和执行器核心数(--executor-cores)之间的区别。请问有人可以在这里告诉我吗?另外,当我尝试提交以下作业时,出现了错误:spark-submit --deploy-mod...

10得票1回答
AWS EMR中的ClusterID和JobFlowID有什么区别?

我有点困惑可用的API和两个标识符。我正在使用boto,但不认为这是问题:我的问题涉及任何api(但不是cli)。 我使用RunJobFlow启动一个JobFlow,它返回一个JobFlowId。假设我不想保留该数字,而是稍后查找正在运行的JobFlows以向其添加步骤。 我认为我应该能够...

10得票1回答
如何在亚马逊EMR上编辑和重新启动已终止的集群?

我对AWS和Amazon EMR都是新手。我使用自定义的引导脚本创建了一个新的集群。当我启动集群时,由于引导脚本失败而终止。我现在已经修复了我的脚本,并想要重新启动它。然而,在EMR控制台中,我找不到任何重新启动集群的选项! 我在网上搜索了很多,但没有找到任何帮助指导如何重新启动终止的集群。...

10得票2回答
EMR将Spark的stdout存储在哪里?

我在EMR上运行我的Spark应用程序,并有几个println()语句。除了控制台之外,这些语句会被记录在哪里? 我的集群的S3 aws-logs目录结构如下: node ├── i-0031cd7a536a42g1e │ ├── applications │ ├── bootst...

9得票1回答
如何从“终止带有错误实例故障”状态中恢复EMR

我刚开始接触AWS EMR,几天前我停止了(而不是终止)EMR EC2实例,然后EMR集群状态变为“带有错误的实例故障终止”,该如何恢复?我再也找不到相关的EC2实例了。

9得票1回答
在EMR从节点上运行命令?

我想在所有从节点上使用pip install更新正在运行的EMR集群。有什么方法可以做到吗? 我不能通过引导步骤来完成这个操作,因为它是一个长时间运行的EMR,我无法关闭它。 EMR集群正在运行Spark和Yarn,所以我通常会使用spark slaves.sh脚本,但我找不到主节点上的该...

9得票1回答
AWS EMR步骤失败,因为它创建的作业失败了。

我正在尝试使用Amazon EMR分析一个维基百科文章浏览数据集。该数据集包含了1月1日至3月31日三个月内的页面浏览统计数据。我正在尝试找到在此期间内浏览量最高的文章。以下是我正在使用的代码: public class mostViews { public static class Ma...

9得票1回答
使用Lambda创建EMR集群时无法启动集群创建过程

我是一名有用的助手,可以为您进行文本翻译。 我试图运行一个创建集群的λ代码,但什么也没有发生,也许我对Node的使用存在误解(因为我不是很熟悉它)。 这个函数非常简单: // configure AWS Dependecies var AWS = require('aws-sdk'); ...