22得票2回答
Spark在EMR上出现S3减速错误

在编写parquet文件时出现了这个错误,最近开始出现com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Please reduce your request rate. (...

22得票2回答
尝试通过SSH登录Amazon EMR Spark集群时出现“操作超时”错误。

我正在尝试通过ssh连接到Amazon EMR Spark集群。这是我所做的: 获取集群主节点的IP:aws emr describe-cluster --cluster-id <cluster_id> | grep MasterPublicDnsName 使用IP地址通过s...

22得票6回答
我们可以将AWS Glue视为EMR的替代品吗?

向Masters澄清一个问题,由于AWS Glue作为ETL工具可以为公司提供诸如最小化或无需服务器维护、避免过度或不足配备资源的成本节省等好处,再加上它可以在Spark上运行。我想了解一些澄清问题,即AWS Glue是否可以替代EMR? 如果两者可以共存,那么EMR如何与AWS Glue发...

22得票3回答
数值错误: 无效的终端节点: https://s3..amazonaws.com

当EMR机器尝试运行包含boto3初始化的步骤时,有时会出现以下错误: ValueError: Invalid endpoint: https://s3..amazonaws.com 当我尝试设置一个新的机器时,它可能突然就能工作了。 附上完整的错误信息:self.client = boto3...

21得票4回答
有没有适用于AWS的Scala SDK或接口?

有人知道Amazon Web Services的Scala SDK吗?我特别关注EMR作业。

21得票1回答
AWS Athena并发限制:提交查询的数量VS正在运行的查询的数量。

根据AWS Athena限制,您可以一次提交最多20个相同类型的查询,但这是软限制,可以根据请求增加。我使用boto3与Athena交互,我的脚本提交16个CTAS查询,每个查询需要约2分钟才能完成。在AWS帐户中,只有我在使用Athena服务。然而,当我通过控制台查看查询状态时,我发现只有少...

21得票2回答
Amazon EC2 按需工人用于短期任务

我打算建立一个 Web 应用程序,需要在 R 中按需运行资源密集型 MCMC (Markov chain Monte Carlo) 计算,以为用户生成一些概率图。 限制条件: 显然,我不希望在 Web 应用程序前端的同一服务器上运行资源密集型计算,因此这些任务需要交给工作实例处理。 这些...

21得票6回答
会话未激活:在AWS EMR集群中使用Pyspark

我已经打开了一个AWS EMR集群,并在pyspark3 jupyter笔记本中运行了以下代码: ".. textRdd = sparkDF.select(textColName).rdd.flatMap(lambda x: x) textRdd.collect().show() .." ...

20得票2回答
将数据框保存到本地文件系统导致结果为空

我们正在AWS EMR上运行spark 2.3.0。 下面的DataFrame“df”是非空的且大小适中:scala> df.count res0: Long = 4067 以下代码用于将df写入到hdfs,工作正常。 scala> val hdf = spark.read.p...

20得票4回答
AWS Glue和AWS EMR的定价对比

我正在对比AWS Glue和AWS EMR的定价,以便在EMR和Glue之间进行选择。 我考虑了6个DPUs(4 vCPUs + 16 GB内存),ETL作业运行10分钟,持续30天。预计爬虫请求超过免费配额,并计算每100万个附加请求的1美元。 在EMR上,我考虑了m3.xlarge用于...