46得票8回答
AWS Glue爬虫未创建表

我在AWS Glue中创建了一个爬虫,但它在成功完成后没有在数据目录中创建表。 爬虫大约需要20秒钟运行,日志显示它已经成功完成。CloudWatch日志显示: 基准测试:运行Crawler的开始抓取 基准测试:分类完成,将结果写入DB 基准测试:完成写入目录 基准测试:爬虫已经运行结束...

42得票4回答
如何创建具有不同列的分区的AWS Glue表?('HIVE_PARTITION_SCHEMA_MISMATCH')

根据这个AWS论坛帖子,有人知道如何使用AWS Glue创建一个包含不同模式的AWS Athena表的分区(在这种情况下,从表模式中选择不同的列子集)吗? 目前,当我在这些数据上运行爬虫,然后在Athena中进行查询时,会出现错误'HIVE_PARTITION_SCHEMA_MISMATCH...

42得票9回答
我能在本地测试AWS Glue代码吗?

阅读了亚马逊文档后,我的理解是运行/测试Glue脚本的唯一方法是将其部署到开发终端并在必要时进行远程调试。同时,如果(Python)代码由多个文件和包组成,则除主脚本外的所有内容都需要进行压缩。所有这些让我感觉Glue不适用于任何复杂的ETL任务,因为开发和测试都很繁琐。我可以在本地测试我的S...

39得票7回答
如何在AWS Glue中将消息写入输出日志?

AWS Glue作业默认将日志输出和错误记录到两个不同的CloudWatch日志中,分别为/aws-glue/jobs/error和/aws-glue/jobs/output。当我在脚本中包含print()语句以进行调试时,它们会被写入错误日志(/aws-glue/jobs/error)。 ...

39得票4回答
DynamicFrame与DataFrame的区别

有什么区别呢?我知道DynamicFrame是为AWS Glue创建的,但AWS Glue也支持DataFrame。在AWS Glue中应该什么时候使用DynamicFrame?

33得票5回答
AWS Lambda是否比AWS Glue Job更受欢迎?

在AWS Glue任务中,我们可以编写一些脚本,并通过任务执行该脚本。 在AWS Lambda中,我们也可以编写相同的脚本并执行与上述任务相同的逻辑。 因此,我的问题不是AWS Glue Job与AWS Lambda之间的区别是什么,而是我试图了解在两者都执行相同作业时,何时应优先选择AW...

32得票3回答
AWS Glue中的transformation_ctx用于什么?

API中有很多方法默认接收此项为空值。 这只是一个字符串标记,但它的目的又是什么呢?

30得票6回答
AWS Glue 到 Redshift:是否可以替换、更新或删除数据?

这是我设置的一些要点: 我上传了CSV文件到S3,并设置了Glue爬虫来创建表格和架构。 我设置了一个Glue作业,使用JDBC连接将数据从Glue表格写入我们的Amazon Redshift数据库。该作业还负责映射列并创建Redshift表格。 重新运行作业后,Redshift中会出...

26得票1回答
AWS Glue作业输入参数

我对AWS相对较新,这可能是一个不太技术性的问题,但目前AWS Glue只允许创建最多25个作业。我们正在加载一系列拥有自己作业的表格,随后会追加审核列。每个作业非常相似,但只是更改连接字符串源和目标。 是否有一种方法可以将这些作业参数化,以允许重用并简单地传递正确的连接字符串?或者甚至可能...

25得票6回答
找不到子网ID的S3端点或NAT网关。

我无法将 AWS Glue 与 RDS 连接VPC S3 endpoint validation failed for SubnetId: subnet-7e8a2. VPC: vpc-4d2d25. Reason: Could not find S3 endpoint or NAT gat...