17得票2回答
亚马逊弹性MapReduce - 从S3大规模插入到DynamoDB非常缓慢

我需要将大约1.3亿个项目(总计5+ GB)首次上传到单个DynamoDB表中。在使用应用程序的API上传它们时,我遇到了问题,因此我决定尝试使用EMR。 长话短说,即使在最强大的集群上,导入这个非常一般(对于EMR而言)数量的数据也需要很长时间,消耗数百小时,进展极其缓慢(处理测试2Mb数...

17得票2回答
AWS EMR在集群中的所有已运行机器上执行“引导程序”脚本

我有一个EMR集群,它一直运行着24/7。我不能关闭它并启动新的。 我想要做的是在已经运行的集群上执行类似于引导操作的东西,最好使用Python和boto或AWS CLI。 我可以想象分为2步来完成: 1)在所有正在运行的实例上运行脚本(如果可能的话,最好从boto中进行) 2)将脚本...

17得票3回答
无法在新的AWS EMR集群中获取SparkContext

我刚刚搭建了一个AWS EMR集群(EMR版本为5.18,Spark版本为2.3.2)。我登录到主服务器并运行spark-shell或pyspark时,出现以下错误:。$ spark-shell log4j:ERROR setFile(null,true) call failed. java...

16得票3回答
Emrfs与S3文件同步无法正常工作

在Amazon EMR集群上运行Spark作业后,我直接从S3中删除了输出文件并尝试重新运行作业。当我尝试使用sqlContext.write将数据写入S3中的parquet文件格式时,出现了以下错误: 在尝试写入Parquet文件格式到S3时,收到以下错误信息:'bucket/folde...

16得票2回答
如何从Lambda函数在Amazon EMR上执行Spark提交?

我希望能够根据S3文件上传事件,在AWS EMR集群上执行Spark Submit作业。我正在使用AWS Lambda函数来捕获事件,但是我不知道如何从Lambda函数提交Spark Submit作业到EMR集群。 我搜索到的大多数答案都谈到在EMR集群中添加一个步骤。但我不知道是否可以在添...

16得票4回答
EMR笔记本安装额外的库

我在使用 EMR 笔记本时,发现通过附加库进行工作非常困难。AWS EMR 接口允许我创建 Jupyter 笔记本并将它们附加到运行的集群上。我想在其中使用其他库。通过SSH连接到机器并手动安装(以 ec2-user 或 root 身份)无法使这些库对笔记本可用,因为它显然使用 livy 用户...

16得票3回答
在pyspark/EMR中对大型DataFrame使用collect()或toPandas()函数

我有一个“c3.8xlarge”机器的EMR集群,在阅读了几篇资源后,我了解到由于我使用pyspark,必须允许足够的堆外内存,因此我已按如下配置集群: 一个执行器: spark.executor.memory 6g spark.executor.cores 10 spark.yarn....

15得票1回答
使用AWS Glue爬虫识别的表出现异常,存储在数据目录中。

我正在努力构建公司的新数据湖,并尝试找到最好和最新的选项来在这里工作。因此,我找到了一个非常不错的解决方案,它包括使用EMR + S3 + Athena + Glue来工作。 我所做的过程是: 1 - 运行Apache Spark脚本,在S3上生成30百万行按日期分区存储的orc文件。 ...

15得票4回答
使用多个S3账户运行EMR Spark

我有一个EMR Spark作业,需要从一个账户的S3读取数据并写入另一个账户的S3。 我将作业拆分成两个步骤。 从S3读取数据(不需要凭据,因为我的EMR集群在同一个账户中)。 从步骤1创建的本地HDFS中读取数据,并将其写入另一个账户的S3存储桶。 我尝试设置hadoopConfig...

15得票2回答
提升Spark中的yarn.executor.memoryOverhead

我正在尝试在EMR上运行一个(py)Spark作业,该作业将处理大量数据。目前我的作业因以下错误信息而失败:Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 GB physical memor...