得票数最多 'aws-glue' 问题 - 第5页

关联标签

14得票4回答

如何在AWS Glue中使用外部Python库？

这是我的第一个stackoverflow问题，希望我能做得正确：我需要在AWS Glue中使用外部Python库，"Openpyxl"是该库的名称。我按照以下说明操作：https://docs.aws.amazon.com/glue/latest/dg/aws-glue-program...

pythonamazon-web-servicesopenpyxlaws-glue

13得票1回答

AWS Athena分区提取所有路径

最近，我在使用AWS Athena时遇到了一个问题，当分区数量非常高时。旧版只有一个数据库和表，只有1个分区级别，比如id=x。例如，我们有一张表，用于存储每个ID（产品）的支付参数，ID并不是很多，假设只有1000-5000个。现在，如果在where子句中传递id号进行查询，比如“......

amazon-web-servicesnosqlaws-glueprestoamazon-athena

13得票1回答

如何配置Spark / Glue以避免在Glue作业成功执行后创建空的$_folder_$？

我有一个简单的Glue ETL作业，由Glue工作流触发。它从爬虫表中删除重复数据，并将结果写回到S3存储桶中。任务已成功完成。然而，spark生成的空文件夹"$folder$"仍然存在于S3中。这在层次结构中看起来不美观并导致混乱。是否有任何方法配置Spark或Glue上下文，在作业成功完成...

amazon-web-servicesaws-glueaws-glue-sparkaws-glue-workflow

13得票3回答

红移连接的粘合作业：“无法找到适当的安全组”

我正在尝试设置AWS Glue作业并连接到Redshift，但是当我将连接类型设置为Redshift时出现错误： “无法找到合适的安全组。将连接类型更改为JDBC，然后重试添加连接。” 根据论坛中的这篇文章，我为角色AWSGlueServiceRoleDefault添加了IAM帐户...

pythonamazon-web-servicesjdbcamazon-redshiftaws-glue

13得票9回答

AWS Glue爬虫无法提取CSV标题行

我在这里快要走投无路了...我有15个CSV文件，它们是从一个类似于beeline查询的过程中生成的：beeline -u CONN_STR --outputformat=dsv -e "SELECT ... " > data.csv 我选择了 dsv，因为某些字符串...

csvamazon-athenaaws-glue

13得票1回答

AWS Glue爬虫 - 分区键类型

我正在使用Spark将文件以ORC格式写入S3。同时，使用Athena查询这些数据。我正在使用以下分区键：s3://bucket/company=1123/date=20190207 当我运行Glue爬虫来对存储桶进行操作时，一切都按预期工作，只是分区键的类型不正确。爬虫将它们配置为目...

amazon-s3amazon-athenaaws-glueaws-glue-data-catalog

12得票2回答

AWS Glue使用分区写入parquet文件

我能够将数据以parquet格式写入，并按照一个列进行分区，代码如下:jobname = args['JOB_NAME'] #header is a spark DataFrame header.repartition(1).write.parquet('s3://bucket/aws-glu...

amazon-web-servicesapache-sparkpysparkaws-glue

12得票2回答

CloudFormation：定义已激活的定时Glue作业触发器的方式。

我正在使用 CloudFormation 定义一个 SCHEDULED Glue 作业触发器，根据官方文档： ParquetJobTrigger: Type: 'AWS::Glue::Trigger' Properties: Name: !Sub "${Prefix}_cs...

amazon-web-servicesaws-cloudformationaws-glue

12得票4回答

AWS Glue作业从外部REST API获取数据

我正在尝试创建一个工作流，其中AWS Glue ETL作业将从外部REST API拉取JSON数据，而不是从S3或其他任何AWS内部来源。这是否可能？有人这样做吗？请帮忙！

aws-glueaws-glue-data-catalog

12得票4回答

从Glue移动数据到DynamoDB的方法

我们正在为我们的一个仪表盘应用程序设计一个大数据解决方案，并且认真考虑将 Glue 作为我们最初的 ETL。目前，Glue 支持 JDBC 和 S3 作为目标，但是我们的下游服务和组件将更适合使用 dynamodb。我们想知道将记录从 Glue 移动到 Dynamo 的最佳方法是什么。我们...

amazon-s3amazon-dynamodbetlaws-glue