24得票3回答
将Hive表导出至S3存储桶

我通过Elastic MapReduce交互式会话创建了一个Hive表,并像这样从CSV文件中填充它: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINA...

24得票4回答
AWS EMR Spark Python Logging

我正在AWS EMR上运行一个非常简单的Spark作业,但似乎无法从我的脚本中获取任何日志输出。 我尝试使用stderr打印: from pyspark import SparkContext import sys if __name__ == '__main__': sc =...

23得票2回答
为什么在EMR上使用Yarn时不能将所有节点分配给运行中的Spark作业?

我正在Amazon Elastic Map Reduce (EMR)上使用Apache Spark运行作业。目前我正在emr-4.1.0上运行,其中包括Amazon Hadoop 2.6.0和Spark 1.5.0。 当我启动作业时,YARN正确地将所有工作节点(当然包括驱动程序)分配给了S...

23得票2回答
Spark - AWS EMR集群中应该选择哪种实例类型?

我正在EMR Spark集群上运行一些机器学习算法。 我想知道应该使用哪种实例类型才能获得最佳的成本/性能收益? 在相同价格水平下,我可以选择以下实例类型: vCPU ECU Memory(GiB) m3.xlarge 4 13 15 c4....

23得票7回答
Pyspark --py-files命令无效。

我按照文档建议使用了这个http://spark.apache.org/docs/1.1.1/submitting-applications.html 使用的spark版本是1.1.0./spark/bin/spark-submit --py-files /home/hadoop/logana...

22得票3回答
Spark + EMR使用亚马逊的“maximizeResourceAllocation”设置时未使用所有核心/虚拟内核

我正在使用 Amazon EMR 集群(版本 emr-4.2.0)来运行 Spark,使用特定于 Amazon 的 maximizeResourceAllocation 标志,如此处所述。根据该文档,“此选项计算核心节点组中一个节点上执行程序的最大计算和内存资源,并将相应的 spark-def...

22得票5回答
EMR上的Spark日志在哪里?

在运行EMR中的Spark作业时,我无法找到来自Scala中println调用的错误日志或消息。我可以在哪里找到这些内容? 我使用script-runner.jar提交了用Scala编写的Spark作业到EMR,参数为--deploy-mode设置为cluster和--master设置为ya...

22得票2回答
SparkUI对于pyspark - 每个阶段的相应代码是什么?

我有一些在AWS集群上运行的Pyspark程序。我通过Spark UI(见附件)监控作业。然而,我注意到与Scala或Java Spark程序不同,它们显示每个阶段对应哪些代码行,但我找不到哪个Pyspark代码行对应哪个阶段。 有没有办法找出哪个阶段对应于哪个Pyspark代码行? 谢谢!

21得票4回答
亚马逊 EMR 上的 Spark 资源未完全分配

我正在尝试为一个简单任务最大化集群使用率。 该集群为1+2 x m3.xlarge,运行Spark 1.3.1,Hadoop 2.4,Amazon AMI 3.7。 该任务读取文本文件的所有行并将其解析为csv格式。 当我以yarn-cluster模式提交任务时,会得到以下一种结果: ...

21得票4回答
有没有适用于AWS的Scala SDK或接口?

有人知道Amazon Web Services的Scala SDK吗?我特别关注EMR作业。