67得票5回答
在具有75GB内存的EMR集群上,“容器因超过内存限制而被YARN终止。使用了10.4 GB的10.4 GB物理内存。”

我在AWS EMR上运行了一个5节点的Spark集群,每个节点大小为m3.xlarge(1个主节点和4个从节点)。我成功地处理了一个146MB的bzip2压缩CSV文件,并得到了完美的聚合结果。 现在我正在尝试在这个集群上处理一个约5GB的bzip2 CSV文件,但是我收到了以下错误消息: ...

47得票5回答
如何在Amazon EMR上引导安装Python模块?

我想做一些非常基本的事情,只需要通过EMR控制台启动一个Spark集群,并运行一个依赖于Python包(例如Arrow)的Spark脚本。这样做最直接的方式是什么?

39得票7回答
如何将JSON数据制作成HIVE表?

我想要将一些嵌套的JSON数据创建为Hive表,并对其运行查询,这是否可能? 我已经上传了JSON文件到S3并启动了EMR实例,但我不知道在Hive控制台中键入什么来使JSON文件成为Hive表? 有没有人有一些示例命令可以帮我入手,我在Google上找不到任何有用的信息...

34得票3回答
在S3上压缩文件

我在S3上有一个17.7GB的文件。它是Hive查询的输出结果,未经压缩。 我知道通过压缩,它将会变成大约2.2GB(gzip格式)。当传输速度受到瓶颈(250kB/s)的限制时,如何尽快地将此文件下载到本地? 我还没有找到任何简单的方法在S3上对文件进行压缩,或在s3cmd、boto或相...

31得票2回答
如何删除AWS EMR集群?

我一直在使用AWS EMR进行试验,现在有一些被终止的集群,我想要删除它们: 但是,没有明显的选项可以删除它们。我应该如何让它们消失?

30得票4回答
如何在AWS EMR上重新启动Yarn

我正在使用 Hadoop 2.6.0 (emr-4.2.0 镜像)。我对 yarn-site.xml 进行了一些更改,并希望重新启动 Yarn 以使更改生效。 是否有命令可以实现此操作?

27得票3回答
如何将文件从S3复制到Amazon EMR HDFS?

我正在EMR上运行Hive,需要将一些文件复制到所有EMR实例中。 据我了解,一种方法是只需将文件复制到每个节点的本地文件系统,另一种方法是将文件复制到HDFS,但我还没有找到从S3直接复制到HDFS的简单方法。 那么,最好的做法是什么?

26得票3回答
Pyspark - 加载文件:路径不存在

我是Spark的新手。我正在尝试在EMR集群中读取本地CSV文件。该文件位于:/home/hadoop/. 我使用的脚本如下:spark = SparkSession \ .builder \ .appName("Protob Conversion to Parquet") \...

25得票8回答
Spark在yarn模式下以"Exit status: -100. Diagnostics: Container released on a *lost* node"结束。

我正在尝试使用最新的EMR在AWS上将1TB数据加载到Spark数据库中。然而,运行时间非常长,即使经过6个小时仍未完成,但是在运行了6小时30分钟后,我遇到了一些错误提示Container released on a lost node,并且作业失败了。日志如下:16/07/01 22:45...

25得票2回答
Spark/scala中的SQL查询大小超过了Integer.MAX_VALUE

我正在尝试使用Spark在S3事件上创建一个简单的SQL查询。我按照以下方式加载了约30GB的JSON文件: val d2 = spark.read.json("s3n://myData/2017/02/01/1234"); d2.persist(org.apache.spark.stora...