36得票10回答
将AWS DynamoDB备份到S3

在Amazon docs http://aws.amazon.com/dynamodb/等地方建议使用弹性 Map Reduce 来备份 dynamodb 表,我大概了解这个过程,但找不到任何指南或教程。 所以我的问题是如何自动备份 dynamodb(使用 EMR)? 到目前为止,我认为需...

24得票3回答
将Hive表导出至S3存储桶

我通过Elastic MapReduce交互式会话创建了一个Hive表,并像这样从CSV文件中填充它: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINA...

23得票2回答
为什么在EMR上使用Yarn时不能将所有节点分配给运行中的Spark作业?

我正在Amazon Elastic Map Reduce (EMR)上使用Apache Spark运行作业。目前我正在emr-4.1.0上运行,其中包括Amazon Hadoop 2.6.0和Spark 1.5.0。 当我启动作业时,YARN正确地将所有工作节点(当然包括驱动程序)分配给了S...

22得票3回答
Spark + EMR使用亚马逊的“maximizeResourceAllocation”设置时未使用所有核心/虚拟内核

我正在使用 Amazon EMR 集群(版本 emr-4.2.0)来运行 Spark,使用特定于 Amazon 的 maximizeResourceAllocation 标志,如此处所述。根据该文档,“此选项计算核心节点组中一个节点上执行程序的最大计算和内存资源,并将相应的 spark-def...

17得票7回答
从Hadoop中删除文件/文件夹

我正在数据管道中运行 EMR 活动,分析日志文件时,当我的 管道失败 时,我会收到以下错误:Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs...

17得票2回答
Apache Spark梯度提升树训练运行速度缓慢

我正在尝试使用Spark 1.4的ML库中的梯度提升树学习算法进行实验。 我正在解决一个二元分类问题,其中我的输入是大约50,000个样本和大约500,000个特征。 我的目标是以人类可读格式输出生成的GBT集合的定义。 到目前为止,我的经验是对于我的问题规模,将更多资源添加到群集中似乎没有影...

15得票7回答
在AWS EC2上安排任务

我有一个在AWS EC2上运行的网站。我需要创建一个每晚运行的任务,生成网站地图文件并上传到各种浏览器。我正在寻找在AWS上允许这个功能的工具。我考虑了以下几种方法: 1)向Web服务器生成一个请求以触发它执行此任务 我不喜欢这种方法,因为它会占用服务器线程并使用主机上的CPU周期 ...

15得票1回答
从命令行获取一个Yarn配置

在 EMR 中,是否有一种使用 yarn 命令获取配置键特定值的方法? 例如,我想要做类似这样的事情yarn get-config yarn.scheduler.maximum-allocation-mb

14得票5回答
从Hive表中删除所有分区?

我如何删除Hive表中当前加载的所有分区? 我可以使用alter table <table> drop partition(a=, b=...);命令来删除单个分区。 我可以使用“recover partitions”语句加载所有分区。但是我似乎无法删除所有分区。 我正在使用...

12得票3回答
如何在Java应用程序中等待Elastic MapReduce作业流完成?

最近我一直在使用亚马逊网络服务(AWS),发现该主题没有太多的文档,因此我添加了我的解决方案。 我正在使用Amazon Elastic MapReduce(Amazon EMR)编写应用程序。 在计算结束后,我需要执行一些对其创建的文件的工作,因此我需要知道作业流何时完成工作。 以下是如何...