得票数最多 'amazon-emr' 问题

关联标签

67得票5回答

在具有75GB内存的EMR集群上，“容器因超过内存限制而被YARN终止。使用了10.4 GB的10.4 GB物理内存。”

我在AWS EMR上运行了一个5节点的Spark集群，每个节点大小为m3.xlarge（1个主节点和4个从节点）。我成功地处理了一个146MB的bzip2压缩CSV文件，并得到了完美的聚合结果。现在我正在尝试在这个集群上处理一个约5GB的bzip2 CSV文件，但是我收到了以下错误消息： ...

apache-sparkemramazon-emrbigdata

64得票4回答

AWS VPC如何识别私有子网和公共子网？

我在AWS账户中有一个VPC，与该VPC相关联的有5个子网。子网分为两种类型：公网子网和私网子网。如何确定哪个子网是公网子网，哪个是私网子网？每个子网都有CIDR 10.249.?.?范围。基本上，当我在具有ec2SubnetIds列表的子网中启动EMR时，它会说：“子网配置无效：提供的子...

amazon-web-servicesamazon-emramazon-vpcsubnet

51得票13回答

应用程序报告对于Spark Submit（使用Spark 1.2.0 on YARN）的应用程序（状态：已接受）永远不会结束。

我正在运行 Kinesis 加 Spark 应用程序 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html 以下是在 EC2 实例上的运行命令： ./spark/bin/spark-submit --cla...

apache-sparkhadoop-yarnamazon-emramazon-kinesis

39得票7回答

如何将JSON数据制作成HIVE表？

我想要将一些嵌套的JSON数据创建为Hive表，并对其运行查询，这是否可能？我已经上传了JSON文件到S3并启动了EMR实例，但我不知道在Hive控制台中键入什么来使JSON文件成为Hive表？有没有人有一些示例命令可以帮我入手，我在Google上找不到任何有用的信息...

jsonhadoophiveamazon-emremr

36得票7回答

EMR/Spark导致S3写入速度极慢

我写信是想知道有没有人知道如何加速Spark在EMR上的S3写入时间？我的Spark作业需要超过4小时才能完成，但集群仅在前1.5小时内负载较高。我很好奇Spark这段时间在做什么。我查看了日志，并发现有许多s3 mv命令，每个文件都有一个。直接在S3上查看后，我发现所有文件都在一个_t...

amazon-web-servicesapache-sparkamazon-s3amazon-emr

31得票2回答

如何删除AWS EMR集群？

我一直在使用AWS EMR进行试验，现在有一些被终止的集群，我想要删除它们: 但是，没有明显的选项可以删除它们。我应该如何让它们消失？

amazon-web-servicesemramazon-emr

30得票4回答

亚马逊EMR - 当我们有核心节点时，为什么需要任务节点？

最近我在学习Amazon EMR，根据我的知识，EMR集群让我们选择3个节点。 Master，运行主要的Hadoop守护程序，如NameNode、Job Tracker和Resource Manager。 Core，运行Datanode和Tasktracker守护程序。 Task，只运行Ta...

hadoophadoop2amazon-emr

29得票7回答

如何在AWS EMR Jupyter笔记本中使用Matplotlib？

这与该问题非常接近，但我添加了一些特定于我的问题的细节：使用 AWS-EMR jupyter 笔记本进行 Matplotlib 绘图我想找到一种在 Jupyter 笔记本中使用 matplotlib 的方法。这是出错的代码片段，它非常简单：笔记本 import matplotl...

pythonmatplotlibpysparkjupyter-notebookamazon-emr

28得票2回答

如何在Amazon EMR、EC2上为Breeze配置高性能的BLAS/LAPACK？

我正在尝试搭建一个支持集群上探索性数据分析的环境。根据对现有资源的初步调查，我的目标是使用Scala/Spark和Amazon EMR来配置集群。目前，我只是想运行一些基本示例来验证我是否已正确配置了所有内容。但问题是，我没有看到在Amazon机器实例上预期的Atlas BLAS库的性能。...

apache-sparkamazon-ec2amazon-emrscala-breezejblas

28得票10回答

当初始化SparkContext时出现pyspark错误不存在于JVM错误。

我正在使用EMR上的Spark并编写一个Pyspark脚本，当我尝试时出现了错误。from pyspark import SparkContext sc = SparkContext() 这是错误信息。File "pyex.py", line 5, in <module> ...

pythonpython-3.xapache-sparkpysparkamazon-emr