得票数最多 'aws-glue-data-catalog' 问题

关联标签

13得票1回答

AWS Glue爬虫 - 分区键类型

我正在使用Spark将文件以ORC格式写入S3。同时，使用Athena查询这些数据。我正在使用以下分区键：s3://bucket/company=1123/date=20190207 当我运行Glue爬虫来对存储桶进行操作时，一切都按预期工作，只是分区键的类型不正确。爬虫将它们配置为目...

amazon-s3amazon-athenaaws-glueaws-glue-data-catalog

12得票4回答

AWS Glue作业从外部REST API获取数据

我正在尝试创建一个工作流，其中AWS Glue ETL作业将从外部REST API拉取JSON数据，而不是从S3或其他任何AWS内部来源。这是否可能？有人这样做吗？请帮忙！

aws-glueaws-glue-data-catalog

12得票2回答

如何将AWS Glue连接到VPC并访问私有资源？

我正在尝试从AWS Glue作业连接到运行在VPC（私有子网）内的服务和数据库。私有资源不应公开暴露（例如，移动到公共子网或设置公共负载均衡器）。不幸的是，AWS Glue似乎不支持在用户定义的VPC中运行。 AWS提供了Glue Database Connections，当与Glue S...

amazon-web-servicesaws-glueamazon-vpcaws-glue-data-catalog

12得票2回答

如何解决HIVE_PARTITION_SCHEMA_MISMATCH问题？

我在S3上将数据分成了CSV文件的多个分区: s3://bucket/dataset/p=1/*.csv (第1个分区) ... s3://bucket/dataset/p=100/*.csv (第100个分区) 我对s3://bucket/dataset/运行分类器，它检测到了150...

amazon-athenaaws-glueaws-glue-data-catalog

10得票1回答

AWS Athena：通过结构体数组中的属性进行查询

我使用 AWS Glue 爬取数据，从包含数据的 S3 文件夹中导入 JSON 数据。这些数据的根大括号是像这样的数组形式： [{id: '1', name: 'rick'},{id: '2', name: 'morty'}] 这最终会导致生成以下这样的模式： array<str...

amazon-web-servicesamazon-athenaaws-glue-data-catalog

10得票2回答

使用Terraform将AWS Athena配置为使用Glue目录作为数据库。

我不确定如何使用terraform将Athena连接到我的Glue目录数据库。我使用{{...}}。 resource "aws_glue_catalog_database" "catalog_database" { name = "${var.glue_db_name}" } ...

amazon-web-servicesterraformaws-glueterraform-provider-awsaws-glue-data-catalog

9得票3回答

使用AWS Glue Crawler指定一个SerDe序列化库

每次我在现有数据上运行粘合剂爬虫时，它都会将 Serde 序列化库更改为 LazySimpleSerDe，这导致分类不正确（例如对于带逗号的引用字段）。我需要手动编辑Glue目录中的表细节，将其更改为org.apache.hadoop.hive.serde2.OpenCSVSerde。...

amazon-web-servicesamazon-athenaaws-glueaws-glue-data-catalog

8得票1回答

在使用S3路径的Hive中执行'CREATE TABLE AS'操作时，出现“无法从空字符串创建路径”错误。

我正在尝试在EMR上使用Hive中的Spark创建一个具有S3路径位置的Glue目录表。我已经尝试了以下命令，但是出现了错误： pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: Can n...

amazon-web-servicespysparkhiveaws-glue-data-catalogaws-glue-spark

8得票1回答

AWS Glue工人的G.1X和G.2X定价细节

我已经搜索了AWS Glue文档，但是找不到AWS Glue工作类型G.1X和G.2X的定价细节。请问是否标准版、G.1X和G.2X之间没有费用差异？在Glue的定价部分，我只看到"每个DPU小时按$0.44计费，以1秒为增量，四舍五入到最近的一秒。使用Glue版本2.0的Glue Spark...

amazon-web-servicesaws-glueaws-glue-data-catalogaws-glue-spark

7得票1回答

AWS Glue 数据目录存储在哪里？

我正在学习Glue数据目录，但有点困惑。我知道Glue数据目录并不存储数据本身，只存储数据库和表的元数据，但它们存储在哪个位置呢？

amazon-web-servicesaws-glueaws-glue-data-catalog