得票数最多 'amazon-emr' 问题 - 第5页

关联标签

17得票2回答

亚马逊弹性MapReduce - 从S3大规模插入到DynamoDB非常缓慢

我需要将大约1.3亿个项目（总计5+ GB）首次上传到单个DynamoDB表中。在使用应用程序的API上传它们时，我遇到了问题，因此我决定尝试使用EMR。长话短说，即使在最强大的集群上，导入这个非常一般（对于EMR而言）数量的数据也需要很长时间，消耗数百小时，进展极其缓慢（处理测试2Mb数...

amazon-s3hiveamazon-dynamodbamazon-emr

17得票2回答

AWS EMR在集群中的所有已运行机器上执行“引导程序”脚本

我有一个EMR集群，它一直运行着24/7。我不能关闭它并启动新的。我想要做的是在已经运行的集群上执行类似于引导操作的东西，最好使用Python和boto或AWS CLI。我可以想象分为2步来完成： 1）在所有正在运行的实例上运行脚本（如果可能的话，最好从boto中进行） 2）将脚本...

pythonamazon-web-servicesbotoemramazon-emr

17得票3回答

无法在新的AWS EMR集群中获取SparkContext

我刚刚搭建了一个AWS EMR集群（EMR版本为5.18，Spark版本为2.3.2）。我登录到主服务器并运行spark-shell或pyspark时，出现以下错误：。$ spark-shell log4j:ERROR setFile(null,true) call failed. java...

amazon-web-servicesapache-sparkpysparkamazon-emr

16得票3回答

Emrfs与S3文件同步无法正常工作

在Amazon EMR集群上运行Spark作业后，我直接从S3中删除了输出文件并尝试重新运行作业。当我尝试使用sqlContext.write将数据写入S3中的parquet文件格式时，出现了以下错误：在尝试写入Parquet文件格式到S3时，收到以下错误信息：'bucket/folde...

amazon-s3pysparkamazon-emr

16得票2回答

如何从Lambda函数在Amazon EMR上执行Spark提交？

我希望能够根据S3文件上传事件，在AWS EMR集群上执行Spark Submit作业。我正在使用AWS Lambda函数来捕获事件，但是我不知道如何从Lambda函数提交Spark Submit作业到EMR集群。我搜索到的大多数答案都谈到在EMR集群中添加一个步骤。但我不知道是否可以在添...

amazon-web-servicesapache-sparkaws-lambdaamazon-emrspark-submit

16得票4回答

EMR笔记本安装额外的库

我在使用 EMR 笔记本时，发现通过附加库进行工作非常困难。AWS EMR 接口允许我创建 Jupyter 笔记本并将它们附加到运行的集群上。我想在其中使用其他库。通过SSH连接到机器并手动安装（以 ec2-user 或 root 身份）无法使这些库对笔记本可用，因为它显然使用 livy 用户...

bashamazon-web-servicesjupyter-notebooklibrariesamazon-emr

16得票3回答

在pyspark/EMR中对大型DataFrame使用collect()或toPandas()函数

我有一个“c3.8xlarge”机器的EMR集群，在阅读了几篇资源后，我了解到由于我使用pyspark，必须允许足够的堆外内存，因此我已按如下配置集群：一个执行器： spark.executor.memory 6g spark.executor.cores 10 spark.yarn....

pandasapache-sparkpysparkemramazon-emr

15得票1回答

使用AWS Glue爬虫识别的表出现异常，存储在数据目录中。

我正在努力构建公司的新数据湖，并尝试找到最好和最新的选项来在这里工作。因此，我找到了一个非常不错的解决方案，它包括使用EMR + S3 + Athena + Glue来工作。我所做的过程是： 1 - 运行Apache Spark脚本，在S3上生成30百万行按日期分区存储的orc文件。 ...

amazon-web-servicesapache-sparkamazon-s3amazon-emraws-glue

15得票4回答

使用多个S3账户运行EMR Spark

我有一个EMR Spark作业，需要从一个账户的S3读取数据并写入另一个账户的S3。我将作业拆分成两个步骤。从S3读取数据（不需要凭据，因为我的EMR集群在同一个账户中）。从步骤1创建的本地HDFS中读取数据，并将其写入另一个账户的S3存储桶。我尝试设置hadoopConfig...

apache-sparkamazon-s3amazon-emr

15得票2回答

提升Spark中的yarn.executor.memoryOverhead

我正在尝试在EMR上运行一个(py)Spark作业，该作业将处理大量数据。目前我的作业因以下错误信息而失败：Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 GB physical memor...

amazon-web-servicesapache-sparkpysparkemramazon-emr