67得票5回答
在具有75GB内存的EMR集群上,“容器因超过内存限制而被YARN终止。使用了10.4 GB的10.4 GB物理内存。”

我在AWS EMR上运行了一个5节点的Spark集群,每个节点大小为m3.xlarge(1个主节点和4个从节点)。我成功地处理了一个146MB的bzip2压缩CSV文件,并得到了完美的聚合结果。 现在我正在尝试在这个集群上处理一个约5GB的bzip2 CSV文件,但是我收到了以下错误消息: ...

64得票4回答
AWS VPC如何识别私有子网和公共子网?

我在AWS账户中有一个VPC,与该VPC相关联的有5个子网。子网分为两种类型:公网子网和私网子网。如何确定哪个子网是公网子网,哪个是私网子网?每个子网都有CIDR 10.249.?.?范围。 基本上,当我在具有ec2SubnetIds列表的子网中启动EMR时,它会说:“子网配置无效:提供的子...

51得票13回答
应用程序报告对于Spark Submit(使用Spark 1.2.0 on YARN)的应用程序(状态:已接受)永远不会结束。

我正在运行 Kinesis 加 Spark 应用程序 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html 以下是在 EC2 实例上的运行命令: ./spark/bin/spark-submit --cla...

39得票7回答
如何将JSON数据制作成HIVE表?

我想要将一些嵌套的JSON数据创建为Hive表,并对其运行查询,这是否可能? 我已经上传了JSON文件到S3并启动了EMR实例,但我不知道在Hive控制台中键入什么来使JSON文件成为Hive表? 有没有人有一些示例命令可以帮我入手,我在Google上找不到任何有用的信息...

36得票7回答
EMR/Spark导致S3写入速度极慢

我写信是想知道有没有人知道如何加速Spark在EMR上的S3写入时间? 我的Spark作业需要超过4小时才能完成,但集群仅在前1.5小时内负载较高。 我很好奇Spark这段时间在做什么。我查看了日志,并发现有许多s3 mv命令,每个文件都有一个。直接在S3上查看后,我发现所有文件都在一个_t...

31得票2回答
如何删除AWS EMR集群?

我一直在使用AWS EMR进行试验,现在有一些被终止的集群,我想要删除它们: 但是,没有明显的选项可以删除它们。我应该如何让它们消失?

30得票4回答
亚马逊EMR - 当我们有核心节点时,为什么需要任务节点?

最近我在学习Amazon EMR,根据我的知识,EMR集群让我们选择3个节点。 Master,运行主要的Hadoop守护程序,如NameNode、Job Tracker和Resource Manager。 Core,运行Datanode和Tasktracker守护程序。 Task,只运行Ta...

29得票7回答
如何在AWS EMR Jupyter笔记本中使用Matplotlib?

这与该问题非常接近,但我添加了一些特定于我的问题的细节: 使用 AWS-EMR jupyter 笔记本进行 Matplotlib 绘图 我想找到一种在 Jupyter 笔记本中使用 matplotlib 的方法。 这是出错的代码片段,它非常简单: 笔记本 import matplotl...

28得票2回答
如何在Amazon EMR、EC2上为Breeze配置高性能的BLAS/LAPACK?

我正在尝试搭建一个支持集群上探索性数据分析的环境。根据对现有资源的初步调查,我的目标是使用Scala/Spark和Amazon EMR来配置集群。 目前,我只是想运行一些基本示例来验证我是否已正确配置了所有内容。但问题是,我没有看到在Amazon机器实例上预期的Atlas BLAS库的性能。...

28得票10回答
当初始化SparkContext时出现pyspark错误不存在于JVM错误。

我正在使用EMR上的Spark并编写一个Pyspark脚本,当我尝试时出现了错误。from pyspark import SparkContext sc = SparkContext() 这是错误信息。File "pyex.py", line 5, in <module> ...