27得票5回答
Python pip安装pyarrow出现错误,无法执行'cmake'。

我试图在我的 EMR 集群的主节点上安装 PyArrow,但我一直收到这个错误。[hadoop@ip-XXX-XXX-XXX-XXX ~]$ sudo /usr/bin/pip-3.4 install pyarrow Collecting pyarrow Downloading https:/...

26得票3回答
Pyspark - 加载文件:路径不存在

我是Spark的新手。我正在尝试在EMR集群中读取本地CSV文件。该文件位于:/home/hadoop/. 我使用的脚本如下:spark = SparkSession \ .builder \ .appName("Protob Conversion to Parquet") \...

26得票3回答
如何在Apache Spark中处理变化的Parquet模式

我遇到了一个问题,我的Parquet数据以每天的形式存储在S3中(格式为s3://bucketName/prefix/YYYY/MM/DD/),但我不能从不同日期读取AWS EMR Spark中的数据,因为有些列类型不匹配,导致出现多种异常,例如:java.lang.ClassCastExce...

25得票2回答
AWS EMR 上出现奇怪的 Spark 错误

我有一个非常简单的PySpark脚本,它从S3上的一些parquet数据创建一个dataframe,然后调用count()方法并打印出记录数。 我在AWS EMR群集上运行脚本,但看到以下奇怪的WARN信息:17/12/04 14:20:26 WARN ServletHandler: ja...

24得票3回答
亚马逊EC2与亚马逊EMR的比较

我已经在Hive中实现了一个任务。目前在我的单节点集群上运行良好。 现在我计划将它部署到AWS上。 我对AWS一无所知。如果我想要部署它,那么应该选择Amazon EC2还是Amazon EMR? 我想提高任务的性能。哪种更好、可靠,适合我?如何接近它们?我听说我们还可以将我们的虚拟机设置...

24得票6回答
Hive有类似于DUAL的东西吗?

我希望可以运行像下面这样的语句: SELECT date_add('2008-12-31', 1) FROM DUAL Hive (在Amazon EMR上运行)是否有类似的功能?

23得票2回答
为什么在EMR上使用Yarn时不能将所有节点分配给运行中的Spark作业?

我正在Amazon Elastic Map Reduce (EMR)上使用Apache Spark运行作业。目前我正在emr-4.1.0上运行,其中包括Amazon Hadoop 2.6.0和Spark 1.5.0。 当我启动作业时,YARN正确地将所有工作节点(当然包括驱动程序)分配给了S...

23得票4回答
如何使用boto启动和配置EMR集群

我正在尝试使用boto启动一个集群并运行作业。 我找到了许多创建job_flows的示例,但我却找不到一个示例显示: 如何通过cluster_id定义要使用的集群 如何配置和启动集群(例如,如果我想为某些任务节点使用spot实例) 我有什么遗漏的吗?

23得票5回答
EMR主节点是否知道其集群ID?

我希望能够创建EMR集群,并使这些集群向某个中央队列发送消息。为了实现这一点,我需要在每个主节点上运行某种代理。每个代理都必须在此消息中标识自己,以便接收者知道该消息所属的群集。 主节点是否知道其ID(j-*************)?如果不知道,那么是否有其他识别信息可以让消息接收者推断出...

22得票3回答
Spark + EMR使用亚马逊的“maximizeResourceAllocation”设置时未使用所有核心/虚拟内核

我正在使用 Amazon EMR 集群(版本 emr-4.2.0)来运行 Spark,使用特定于 Amazon 的 maximizeResourceAllocation 标志,如此处所述。根据该文档,“此选项计算核心节点组中一个节点上执行程序的最大计算和内存资源,并将相应的 spark-def...