13得票1回答
AWS Glue爬虫 - 分区键类型

我正在使用Spark将文件以ORC格式写入S3。同时,使用Athena查询这些数据。 我正在使用以下分区键:s3://bucket/company=1123/date=20190207 当我运行Glue爬虫来对存储桶进行操作时,一切都按预期工作,只是分区键的类型不正确。 爬虫将它们配置为目...

12得票4回答
AWS Glue作业从外部REST API获取数据

我正在尝试创建一个工作流,其中AWS Glue ETL作业将从外部REST API拉取JSON数据,而不是从S3或其他任何AWS内部来源。 这是否可能? 有人这样做吗? 请帮忙!

12得票2回答
如何将AWS Glue连接到VPC并访问私有资源?

我正在尝试从AWS Glue作业连接到运行在VPC(私有子网)内的服务和数据库。私有资源不应公开暴露(例如,移动到公共子网或设置公共负载均衡器)。 不幸的是,AWS Glue似乎不支持在用户定义的VPC中运行。 AWS提供了Glue Database Connections,当与Glue S...

12得票2回答
如何解决HIVE_PARTITION_SCHEMA_MISMATCH问题?

我在S3上将数据分成了CSV文件的多个分区: s3://bucket/dataset/p=1/*.csv (第1个分区) ... s3://bucket/dataset/p=100/*.csv (第100个分区) 我对s3://bucket/dataset/运行分类器,它检测到了150...

10得票1回答
AWS Athena:通过结构体数组中的属性进行查询

我使用 AWS Glue 爬取数据,从包含数据的 S3 文件夹中导入 JSON 数据。这些数据的根大括号是像这样的数组形式: [{id: '1', name: 'rick'},{id: '2', name: 'morty'}] 这最终会导致生成以下这样的模式: array<str...

10得票2回答
使用Terraform将AWS Athena配置为使用Glue目录作为数据库。

我不确定如何使用terraform将Athena连接到我的Glue目录数据库。 我使用{{...}}。 resource "aws_glue_catalog_database" "catalog_database" { name = "${var.glue_db_name}" } ...

9得票3回答
使用AWS Glue Crawler指定一个SerDe序列化库

每次我在现有数据上运行粘合剂爬虫时,它都会将 Serde 序列化库更改为 LazySimpleSerDe,这导致分类不正确(例如对于带逗号的引用字段)。 我需要手动编辑Glue目录中的表细节,将其更改为org.apache.hadoop.hive.serde2.OpenCSVSerde。...

8得票1回答
在使用S3路径的Hive中执行'CREATE TABLE AS'操作时,出现“无法从空字符串创建路径”错误。

我正在尝试在EMR上使用Hive中的Spark创建一个具有S3路径位置的Glue目录表。 我已经尝试了以下命令,但是出现了错误: pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: Can n...

8得票1回答
AWS Glue工人的G.1X和G.2X定价细节

我已经搜索了AWS Glue文档,但是找不到AWS Glue工作类型G.1X和G.2X的定价细节。请问是否标准版、G.1X和G.2X之间没有费用差异?在Glue的定价部分,我只看到"每个DPU小时按$0.44计费,以1秒为增量,四舍五入到最近的一秒。使用Glue版本2.0的Glue Spark...

7得票1回答
AWS Glue 数据目录存储在哪里?

我正在学习Glue数据目录,但有点困惑。我知道Glue数据目录并不存储数据本身,只存储数据库和表的元数据,但它们存储在哪个位置呢?