得票数最多 'amazon-emr' 问题 - 第3页

关联标签

22得票2回答

Spark在EMR上出现S3减速错误

在编写parquet文件时出现了这个错误，最近开始出现com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Please reduce your request rate. (...

scalaapache-sparkamazon-s3amazon-emrapache-spark-dataset

22得票2回答

尝试通过SSH登录Amazon EMR Spark集群时出现“操作超时”错误。

我正在尝试通过ssh连接到Amazon EMR Spark集群。这是我所做的：获取集群主节点的IP：aws emr describe-cluster --cluster-id <cluster_id> | grep MasterPublicDnsName 使用IP地址通过s...

apache-sparksshamazon-emr

22得票6回答

我们可以将AWS Glue视为EMR的替代品吗？

向Masters澄清一个问题，由于AWS Glue作为ETL工具可以为公司提供诸如最小化或无需服务器维护、避免过度或不足配备资源的成本节省等好处，再加上它可以在Spark上运行。我想了解一些澄清问题，即AWS Glue是否可以替代EMR？如果两者可以共存，那么EMR如何与AWS Glue发...

amazon-web-servicesetlamazon-emraws-glue

22得票3回答

数值错误: 无效的终端节点: https://s3..amazonaws.com

当EMR机器尝试运行包含boto3初始化的步骤时，有时会出现以下错误: ValueError: Invalid endpoint: https://s3..amazonaws.com 当我尝试设置一个新的机器时，它可能突然就能工作了。附上完整的错误信息:self.client = boto3...

pythonamazon-web-servicesamazon-s3boto3amazon-emr

21得票4回答

有没有适用于AWS的Scala SDK或接口？

有人知道Amazon Web Services的Scala SDK吗？我特别关注EMR作业。

scalaamazon-web-servicesemramazon-emr

21得票1回答

AWS Athena并发限制：提交查询的数量VS正在运行的查询的数量。

根据AWS Athena限制，您可以一次提交最多20个相同类型的查询，但这是软限制，可以根据请求增加。我使用boto3与Athena交互，我的脚本提交16个CTAS查询，每个查询需要约2分钟才能完成。在AWS帐户中，只有我在使用Athena服务。然而，当我通过控制台查看查询状态时，我发现只有少...

concurrencylimitamazon-emramazon-athenaaws-glue

21得票2回答

Amazon EC2 按需工人用于短期任务

我打算建立一个 Web 应用程序，需要在 R 中按需运行资源密集型 MCMC (Markov chain Monte Carlo) 计算，以为用户生成一些概率图。限制条件：显然，我不希望在 Web 应用程序前端的同一服务器上运行资源密集型计算，因此这些任务需要交给工作实例处理。这些...

ramazon-ec2amazon-emramazon-swf

21得票6回答

会话未激活：在AWS EMR集群中使用Pyspark

我已经打开了一个AWS EMR集群，并在pyspark3 jupyter笔记本中运行了以下代码： ".. textRdd = sparkDF.select(textColName).rdd.flatMap(lambda x: x) textRdd.collect().show() .." ...

pysparkamazon-emr

20得票2回答

将数据框保存到本地文件系统导致结果为空

我们正在AWS EMR上运行spark 2.3.0。下面的DataFrame“df”是非空的且大小适中：scala> df.count res0: Long = 4067 以下代码用于将df写入到hdfs，工作正常。 scala> val hdf = spark.read.p...

apache-sparkamazon-emr

20得票4回答

AWS Glue和AWS EMR的定价对比

我正在对比AWS Glue和AWS EMR的定价，以便在EMR和Glue之间进行选择。我考虑了6个DPUs（4 vCPUs + 16 GB内存），ETL作业运行10分钟，持续30天。预计爬虫请求超过免费配额，并计算每100万个附加请求的1美元。在EMR上，我考虑了m3.xlarge用于...

amazon-web-servicesamazon-emraws-gluecost-management