14得票4回答
如何在AWS Glue中使用外部Python库?

这是我的第一个stackoverflow问题,希望我能做得正确: 我需要在AWS Glue中使用外部Python库,"Openpyxl"是该库的名称。 我按照以下说明操作:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-program...

13得票1回答
AWS Athena分区提取所有路径

最近,我在使用AWS Athena时遇到了一个问题,当分区数量非常高时。 旧版只有一个数据库和表,只有1个分区级别,比如id=x。例如,我们有一张表,用于存储每个ID(产品)的支付参数,ID并不是很多,假设只有1000-5000个。现在,如果在where子句中传递id号进行查询,比如“......

13得票1回答
如何配置Spark / Glue以避免在Glue作业成功执行后创建空的$_folder_$?

我有一个简单的Glue ETL作业,由Glue工作流触发。它从爬虫表中删除重复数据,并将结果写回到S3存储桶中。任务已成功完成。然而,spark生成的空文件夹"$folder$"仍然存在于S3中。这在层次结构中看起来不美观并导致混乱。是否有任何方法配置Spark或Glue上下文,在作业成功完成...

13得票3回答
红移连接的粘合作业:“无法找到适当的安全组”

我正在尝试设置AWS Glue作业并连接到Redshift,但是当我将连接类型设置为Redshift时出现错误: “无法找到合适的安全组。将连接类型更改为JDBC,然后重试添加连接。” 根据论坛中的这篇文章,我为角色AWSGlueServiceRoleDefault添加了IAM帐户...

13得票9回答
AWS Glue爬虫无法提取CSV标题行

我在这里快要走投无路了...我有15个CSV文件,它们是从一个类似于beeline查询的过程中生成的:beeline -u CONN_STR --outputformat=dsv -e "SELECT ... " > data.csv 我选择了 dsv,因为某些字符串...

13得票1回答
AWS Glue爬虫 - 分区键类型

我正在使用Spark将文件以ORC格式写入S3。同时,使用Athena查询这些数据。 我正在使用以下分区键:s3://bucket/company=1123/date=20190207 当我运行Glue爬虫来对存储桶进行操作时,一切都按预期工作,只是分区键的类型不正确。 爬虫将它们配置为目...

12得票2回答
AWS Glue使用分区写入parquet文件

我能够将数据以parquet格式写入,并按照一个列进行分区,代码如下:jobname = args['JOB_NAME'] #header is a spark DataFrame header.repartition(1).write.parquet('s3://bucket/aws-glu...

12得票2回答
CloudFormation:定义已激活的定时Glue作业触发器的方式。

我正在使用 CloudFormation 定义一个 SCHEDULED Glue 作业触发器,根据官方 文档: ParquetJobTrigger: Type: 'AWS::Glue::Trigger' Properties: Name: !Sub "${Prefix}_cs...

12得票4回答
AWS Glue作业从外部REST API获取数据

我正在尝试创建一个工作流,其中AWS Glue ETL作业将从外部REST API拉取JSON数据,而不是从S3或其他任何AWS内部来源。 这是否可能? 有人这样做吗? 请帮忙!

12得票4回答
从Glue移动数据到DynamoDB的方法

我们正在为我们的一个仪表盘应用程序设计一个大数据解决方案,并且认真考虑将 Glue 作为我们最初的 ETL。目前,Glue 支持 JDBC 和 S3 作为目标,但是我们的下游服务和组件将更适合使用 dynamodb。我们想知道将记录从 Glue 移动到 Dynamo 的最佳方法是什么。 我们...