20得票4回答
通过AWS API在Glue表上添加分区?

我有一个S3桶,里面不断地填充新数据。我正在使用Athena和Glue查询该数据,但问题是如果Glue不知道新分区被创建了,就无法搜索需要搜索的内容。如果每次需要新的分区时都要进行API调用来运行Glue爬虫,那么成本太高了,因此最好的解决方案是告诉Glue添加了一个新分区,即在其属性表中创建...

20得票4回答
AWS Glue和AWS EMR的定价对比

我正在对比AWS Glue和AWS EMR的定价,以便在EMR和Glue之间进行选择。 我考虑了6个DPUs(4 vCPUs + 16 GB内存),ETL作业运行10分钟,持续30天。预计爬虫请求超过免费配额,并计算每100万个附加请求的1美元。 在EMR上,我考虑了m3.xlarge用于...

18得票8回答
AWS Glue 中的可选工作参数是什么?

我该如何在AWS Glue Job中实现可选参数? 我创建了一个作业,它目前具有字符串参数(ISO 8601日期字符串)作为输入,用于ETL作业。我想使此参数可选,以便作业在未提供参数时使用默认值(例如,在我的情况下使用datetime.now和datetime.isoformat)。我尝试...

17得票4回答
如何在AWS Glue目录中列出所有数据库和表?

我在AWS Glue控制台创建了一个开发终端,并且现在可以在gluepyspark控制台中访问SparkContext和SQLContext。 我该如何访问目录并列出所有数据库和表?通常的sqlContext.sql("show tables").show()无效。 可能有帮助的是Cata...

16得票13回答
使用AWS Glue Python与NumPy和Pandas Python包

如何在AWS的Glue中使用NumPy和Pandas等包是最简单的方法?我有一个使用NumPy和Pandas的Python脚本,我想在AWS Glue中运行。

16得票5回答
如何使用AWS Glue将多个CSV文件转换成Parquet格式

我正在使用AWS S3、Glue和Athena来进行如下设置: S3 --> Glue --> Athena 我的原始数据以CSV文件的形式存储在S3上。我使用Glue进行ETL,并使用Athena查询数据。 由于我使用Athena,我想将CSV文件转换为Parquet格式。目前我正在使...

16得票9回答
AWS Athena从由GLUE爬虫输入的S3 CSV创建的表中返回零条记录

第一部分: 我尝试使用黏合剂爬虫在S3上加载的虚拟CSV文件中运行,它创建了一个表格,但是当我尝试在Athena中查看表格并查询时,它显示返回零条记录。 但是,在Athena中的ELB演示数据可以正常工作。 第二部分(场景): 假设我有一个Excel文件和一个描述数据存储方式和格式的数...

16得票2回答
将 Spark DataFrame 转换为 AWS Glue 动态框架。

我尝试将我的Spark数据框转换为动态框以输出为Glueparquet文件,但我遇到了错误: "'DataFrame'对象没有属性'fromDF'" 我的代码大量使用Spark数据框。是否有一种方法可以将Spark数据框转换为动态框,以便我可以写出Glueparquet?如果可以,...

16得票3回答
如何在AWS Glue作业中使用额外文件

我有一个用Python编写的ETL作业,它由多个脚本组成,具有以下目录结构;my_etl_job | |--services | | | |-- __init__.py | |-- dynamoDB_service.py | |-- __init__.py |-- mai...

15得票1回答
使用AWS Glue爬虫识别的表出现异常,存储在数据目录中。

我正在努力构建公司的新数据湖,并尝试找到最好和最新的选项来在这里工作。因此,我找到了一个非常不错的解决方案,它包括使用EMR + S3 + Athena + Glue来工作。 我所做的过程是: 1 - 运行Apache Spark脚本,在S3上生成30百万行按日期分区存储的orc文件。 ...