15得票3回答
AWS Glue需要很长时间才能完成。

我刚刚运行了一个非常简单的作业,如下所示glueContext = GlueContext(SparkContext.getOrCreate()) l_table = glueContext.create_dynamic_frame.from_catalog( dat...

15得票2回答
AWS Glue输出文件名

我正在使用AWS转换一些JSON文件。我已经将这些文件从S3添加到Glue中。我设置的任务可以成功读取这些文件并运行成功,文件被添加到了正确的S3存储桶中。但是问题在于我不能给该文件命名——它被随机命名,并且也没有给予.json扩展名。 我该如何为输出文件命名,并添加扩展名呢?

15得票6回答
AWS Glue爬虫为每个分区添加表格?

我有数千个文件以以下形式存储在S3存储桶中:├── bucket │ ├── somedata │ │   ├── year=2016 │ │   ├── year=2017 │ │   │   ├── month=11 │ │   | │   ├── sometype...

15得票4回答
AWS Glue无法通过爬虫创建数据库:权限被拒绝。

我正在尝试使用AWS Glue爬虫在S3存储桶上填充Glue数据库。我运行创建爬虫向导,选择我的数据源(包含Avro文件的S3存储桶),让它创建IAM角色并运行它,但是我收到以下错误:Database does not exist or principal is not authorized ...

14得票1回答
在模式更改时如何使用AWS Glue和Apache Avro

我对AWS Glue还不熟悉,阅读AWS文档时遇到了些困难,但正在尝试解决以下用例: 我们有一个S3存储桶中有很多Avro文件。我们决定使用Avro格式,因为它支持数据模式随时间的变化而进行扩展,允许新字段应用于旧数据而不会出现问题。 使用AWS Glue时,我知道每当出现模式更改时爬虫程...

14得票2回答
AWS Glue与EMR Serverless比较

最近,AWS宣布了Amazon EMR Serverless(Preview) https://aws.amazon.com/blogs/big-data/announcing-amazon-emr-serverless-preview-run-big-data-applications-wi...

14得票5回答
如何为抓取的表设置名称?

AWS爬虫具有前缀属性,可用于添加新的表格。因此,如果我将前缀留空并启动爬虫到 s3://my-bucket/some-table-backup,它将创建一个名为some-table-backup的表格。是否有一种方法可以将其重命名为my-awesome-table并保持爬虫更新重命名后的表格...

14得票1回答
在AWS Glue中如何设置多个 --conf 表参数?

在stackoverflow上有多个回答建议设置--conf表参数。然而,有时在一个作业中,我们需要在1个作业中设置多个--conf键值对。 我尝试了以下几种方法来设置多个--conf值,但都失败了: 1. 添加另一个名为--conf的表参数。这导致AWS仪表板删除第二个名为--conf的...

14得票2回答
AWS Athena - GENERIC_INTERNAL_ERROR: 分区值的数量与过滤器不匹配

我在 Athena 查询一张表时遇到错误: GENERIC_INTERNAL_ERROR: Number of partition values does not match number of filters。 之前我能够查询成功,但是为了优化后续查询中的连接操作,我添加了另一个分区(AW...

14得票4回答
如何在AWS Glue作业中解决Spark“设备上没有剩余空间”的错误

我曾使用 AWS Glue Job 结合 PySpark 从 s3 Parquet 文件中读取超过10TB的数据,但在执行 Spark SQL 查询时该任务失败并出现如下错误java.io.IOException: No space left on the device 经过分析,我发现AWS...