得票数最多 'emr' 问题 - 第2页

关联标签

24得票3回答

将Hive表导出至S3存储桶

我通过Elastic MapReduce交互式会话创建了一个Hive表，并像这样从CSV文件中填充它： CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINA...

amazon-s3hiveelastic-map-reduceemr

24得票4回答

AWS EMR Spark Python Logging

我正在AWS EMR上运行一个非常简单的Spark作业，但似乎无法从我的脚本中获取任何日志输出。我尝试使用stderr打印： from pyspark import SparkContext import sys if __name__ == '__main__': sc =...

pythonapache-sparkemr

23得票2回答

为什么在EMR上使用Yarn时不能将所有节点分配给运行中的Spark作业？

我正在Amazon Elastic Map Reduce (EMR)上使用Apache Spark运行作业。目前我正在emr-4.1.0上运行，其中包括Amazon Hadoop 2.6.0和Spark 1.5.0。当我启动作业时，YARN正确地将所有工作节点（当然包括驱动程序）分配给了S...

apache-sparkhadoop-yarnemramazon-emrelastic-map-reduce

23得票2回答

Spark - AWS EMR集群中应该选择哪种实例类型？

我正在EMR Spark集群上运行一些机器学习算法。我想知道应该使用哪种实例类型才能获得最佳的成本/性能收益？在相同价格水平下，我可以选择以下实例类型: vCPU ECU Memory(GiB) m3.xlarge 4 13 15 c4....

amazon-ec2apache-sparkemr

23得票7回答

Pyspark --py-files命令无效。

我按照文档建议使用了这个http://spark.apache.org/docs/1.1.1/submitting-applications.html 使用的spark版本是1.1.0./spark/bin/spark-submit --py-files /home/hadoop/logana...

pythonhadoopapache-sparkemr

22得票3回答

Spark + EMR使用亚马逊的“maximizeResourceAllocation”设置时未使用所有核心/虚拟内核

我正在使用 Amazon EMR 集群（版本 emr-4.2.0）来运行 Spark，使用特定于 Amazon 的 maximizeResourceAllocation 标志，如此处所述。根据该文档，“此选项计算核心节点组中一个节点上执行程序的最大计算和内存资源，并将相应的 spark-def...

apache-sparkhadoop-yarnemramazon-emrelastic-map-reduce

22得票5回答