得票数最多 'emr' 问题

关联标签

67得票5回答

在具有75GB内存的EMR集群上，“容器因超过内存限制而被YARN终止。使用了10.4 GB的10.4 GB物理内存。”

我在AWS EMR上运行了一个5节点的Spark集群，每个节点大小为m3.xlarge（1个主节点和4个从节点）。我成功地处理了一个146MB的bzip2压缩CSV文件，并得到了完美的聚合结果。现在我正在尝试在这个集群上处理一个约5GB的bzip2 CSV文件，但是我收到了以下错误消息： ...

apache-sparkemramazon-emrbigdata

47得票5回答

如何在Amazon EMR上引导安装Python模块？

我想做一些非常基本的事情，只需要通过EMR控制台启动一个Spark集群，并运行一个依赖于Python包（例如Arrow）的Spark脚本。这样做最直接的方式是什么？

pythonamazon-web-servicesapache-sparkemr

39得票7回答

如何将JSON数据制作成HIVE表？

我想要将一些嵌套的JSON数据创建为Hive表，并对其运行查询，这是否可能？我已经上传了JSON文件到S3并启动了EMR实例，但我不知道在Hive控制台中键入什么来使JSON文件成为Hive表？有没有人有一些示例命令可以帮我入手，我在Google上找不到任何有用的信息...

jsonhadoophiveamazon-emremr

34得票3回答

在S3上压缩文件

我在S3上有一个17.7GB的文件。它是Hive查询的输出结果，未经压缩。我知道通过压缩，它将会变成大约2.2GB（gzip格式）。当传输速度受到瓶颈（250kB/s）的限制时，如何尽快地将此文件下载到本地？我还没有找到任何简单的方法在S3上对文件进行压缩，或在s3cmd、boto或相...

amazon-s3compressionhivefile-transferemr

31得票2回答

如何删除AWS EMR集群？

我一直在使用AWS EMR进行试验，现在有一些被终止的集群，我想要删除它们: 但是，没有明显的选项可以删除它们。我应该如何让它们消失？

amazon-web-servicesemramazon-emr

30得票4回答

如何在AWS EMR上重新启动Yarn

我正在使用 Hadoop 2.6.0 (emr-4.2.0 镜像)。我对 yarn-site.xml 进行了一些更改，并希望重新启动 Yarn 以使更改生效。是否有命令可以实现此操作？

hadoophadoop-yarnemr

27得票3回答

如何将文件从S3复制到Amazon EMR HDFS？

我正在EMR上运行Hive，需要将一些文件复制到所有EMR实例中。据我了解，一种方法是只需将文件复制到每个节点的本地文件系统，另一种方法是将文件复制到HDFS，但我还没有找到从S3直接复制到HDFS的简单方法。那么，最好的做法是什么？

amazon-s3hadoophivehdfsemr

26得票3回答

Pyspark - 加载文件：路径不存在

我是Spark的新手。我正在尝试在EMR集群中读取本地CSV文件。该文件位于：/home/hadoop/. 我使用的脚本如下：spark = SparkSession \ .builder \ .appName("Protob Conversion to Parquet") \...

apache-sparkpysparkemramazon-emrapache-spark-sql

25得票8回答

Spark在yarn模式下以"Exit status: -100. Diagnostics: Container released on a lost node"结束。

我正在尝试使用最新的EMR在AWS上将1TB数据加载到Spark数据库中。然而，运行时间非常长，即使经过6个小时仍未完成，但是在运行了6小时30分钟后，我遇到了一些错误提示Container released on a lost node，并且作业失败了。日志如下:16/07/01 22:45...

apache-sparkhadoop-yarnemr

25得票2回答