得票数最多 'aws-glue' 问题 - 第4页

关联标签

15得票3回答

AWS Glue需要很长时间才能完成。

我刚刚运行了一个非常简单的作业，如下所示glueContext = GlueContext(SparkContext.getOrCreate()) l_table = glueContext.create_dynamic_frame.from_catalog( dat...

amazon-web-servicesaws-glue

15得票2回答

AWS Glue输出文件名

我正在使用AWS转换一些JSON文件。我已经将这些文件从S3添加到Glue中。我设置的任务可以成功读取这些文件并运行成功，文件被添加到了正确的S3存储桶中。但是问题在于我不能给该文件命名——它被随机命名，并且也没有给予.json扩展名。我该如何为输出文件命名，并添加扩展名呢？

amazon-web-servicesamazon-s3aws-glue

15得票6回答

AWS Glue爬虫为每个分区添加表格？

我有数千个文件以以下形式存储在S3存储桶中：├── bucket │ ├── somedata │ │ ├── year=2016 │ │ ├── year=2017 │ │ │ ├── month=11 │ │ | │ ├── sometype...

amazon-web-servicesparquetaws-glue

15得票4回答

AWS Glue无法通过爬虫创建数据库：权限被拒绝。

我正在尝试使用AWS Glue爬虫在S3存储桶上填充Glue数据库。我运行创建爬虫向导，选择我的数据源（包含Avro文件的S3存储桶），让它创建IAM角色并运行它，但是我收到以下错误：Database does not exist or principal is not authorized ...

amazon-web-servicesamazon-athenaaws-glue

14得票1回答

在模式更改时如何使用AWS Glue和Apache Avro

我对AWS Glue还不熟悉，阅读AWS文档时遇到了些困难，但正在尝试解决以下用例：我们有一个S3存储桶中有很多Avro文件。我们决定使用Avro格式，因为它支持数据模式随时间的变化而进行扩展，允许新字段应用于旧数据而不会出现问题。使用AWS Glue时，我知道每当出现模式更改时爬虫程...

amazon-web-servicesamazon-s3avroaws-glue

14得票2回答

AWS Glue与EMR Serverless比较

最近，AWS宣布了Amazon EMR Serverless（Preview） https://aws.amazon.com/blogs/big-data/announcing-amazon-emr-serverless-preview-run-big-data-applications-wi...

amazon-web-servicesamazon-emraws-glueemr-serverless

14得票5回答

如何为抓取的表设置名称？

AWS爬虫具有前缀属性，可用于添加新的表格。因此，如果我将前缀留空并启动爬虫到 s3://my-bucket/some-table-backup，它将创建一个名为some-table-backup的表格。是否有一种方法可以将其重命名为my-awesome-table并保持爬虫更新重命名后的表格...

amazon-web-servicesaws-glue

14得票1回答

在AWS Glue中如何设置多个 --conf 表参数？

在stackoverflow上有多个回答建议设置--conf表参数。然而，有时在一个作业中，我们需要在1个作业中设置多个--conf键值对。我尝试了以下几种方法来设置多个--conf值，但都失败了: 1. 添加另一个名为--conf的表参数。这导致AWS仪表板删除第二个名为--conf的...

amazon-web-servicesaws-glue

14得票2回答

AWS Athena - GENERIC_INTERNAL_ERROR: 分区值的数量与过滤器不匹配

我在 Athena 查询一张表时遇到错误: GENERIC_INTERNAL_ERROR: Number of partition values does not match number of filters。之前我能够查询成功，但是为了优化后续查询中的连接操作，我添加了另一个分区(AW...

amazon-web-servicesaws-glueprestoamazon-athena

14得票4回答

如何在AWS Glue作业中解决Spark“设备上没有剩余空间”的错误

我曾使用 AWS Glue Job 结合 PySpark 从 s3 Parquet 文件中读取超过10TB的数据，但在执行 Spark SQL 查询时该任务失败并出现如下错误java.io.IOException: No space left on the device 经过分析，我发现AWS...

amazon-s3pysparkaws-glue