得票数最多 'aws-glue' 问题

关联标签

46得票8回答

AWS Glue爬虫未创建表

我在AWS Glue中创建了一个爬虫，但它在成功完成后没有在数据目录中创建表。爬虫大约需要20秒钟运行，日志显示它已经成功完成。CloudWatch日志显示：基准测试：运行Crawler的开始抓取基准测试：分类完成，将结果写入DB 基准测试：完成写入目录基准测试：爬虫已经运行结束...

amazon-web-servicesaws-glue

42得票4回答

如何创建具有不同列的分区的AWS Glue表？（'HIVE_PARTITION_SCHEMA_MISMATCH'）

根据这个AWS论坛帖子，有人知道如何使用AWS Glue创建一个包含不同模式的AWS Athena表的分区（在这种情况下，从表模式中选择不同的列子集）吗？目前，当我在这些数据上运行爬虫，然后在Athena中进行查询时，会出现错误'HIVE_PARTITION_SCHEMA_MISMATCH...

amazon-web-servicesamazon-s3amazon-athenaaws-glue

42得票9回答

我能在本地测试AWS Glue代码吗？

阅读了亚马逊文档后，我的理解是运行/测试Glue脚本的唯一方法是将其部署到开发终端并在必要时进行远程调试。同时，如果（Python）代码由多个文件和包组成，则除主脚本外的所有内容都需要进行压缩。所有这些让我感觉Glue不适用于任何复杂的ETL任务，因为开发和测试都很繁琐。我可以在本地测试我的S...

pythonamazon-web-servicesaws-glue

39得票7回答

如何在AWS Glue中将消息写入输出日志？

AWS Glue作业默认将日志输出和错误记录到两个不同的CloudWatch日志中，分别为/aws-glue/jobs/error和/aws-glue/jobs/output。当我在脚本中包含print()语句以进行调试时，它们会被写入错误日志(/aws-glue/jobs/error)。 ...

pysparkaws-glue

39得票4回答

DynamicFrame与DataFrame的区别

有什么区别呢？我知道DynamicFrame是为AWS Glue创建的，但AWS Glue也支持DataFrame。在AWS Glue中应该什么时候使用DynamicFrame？

amazon-web-servicesapache-sparkpysparkaws-glue

33得票5回答

AWS Lambda是否比AWS Glue Job更受欢迎？

在AWS Glue任务中，我们可以编写一些脚本，并通过任务执行该脚本。在AWS Lambda中，我们也可以编写相同的脚本并执行与上述任务相同的逻辑。因此，我的问题不是AWS Glue Job与AWS Lambda之间的区别是什么，而是我试图了解在两者都执行相同作业时，何时应优先选择AW...

amazon-web-servicesaws-lambdaaws-glue

32得票3回答

AWS Glue中的transformation_ctx用于什么？

API中有很多方法默认接收此项为空值。这只是一个字符串标记，但它的目的又是什么呢？

amazon-web-servicesaws-glue

30得票6回答

AWS Glue 到 Redshift：是否可以替换、更新或删除数据？

这是我设置的一些要点：我上传了CSV文件到S3，并设置了Glue爬虫来创建表格和架构。我设置了一个Glue作业，使用JDBC连接将数据从Glue表格写入我们的Amazon Redshift数据库。该作业还负责映射列并创建Redshift表格。重新运行作业后，Redshift中会出...

amazon-web-servicesjdbcpysparkaws-glue

26得票1回答

AWS Glue作业输入参数

我对AWS相对较新，这可能是一个不太技术性的问题，但目前AWS Glue只允许创建最多25个作业。我们正在加载一系列拥有自己作业的表格，随后会追加审核列。每个作业非常相似，但只是更改连接字符串源和目标。是否有一种方法可以将这些作业参数化，以允许重用并简单地传递正确的连接字符串？或者甚至可能...

amazon-web-servicesaws-glue

25得票6回答

找不到子网ID的S3端点或NAT网关。

我无法将 AWS Glue 与 RDS 连接VPC S3 endpoint validation failed for SubnetId: subnet-7e8a2. VPC: vpc-4d2d25. Reason: Could not find S3 endpoint or NAT gat...

amazon-web-servicesapache-sparkamazon-rdsamazon-iamaws-glue