我有一个S3桶,里面不断地填充新数据。我正在使用Athena和Glue查询该数据,但问题是如果Glue不知道新分区被创建了,就无法搜索需要搜索的内容。如果每次需要新的分区时都要进行API调用来运行Glue爬虫,那么成本太高了,因此最好的解决方案是告诉Glue添加了一个新分区,即在其属性表中创建...
我正在对比AWS Glue和AWS EMR的定价,以便在EMR和Glue之间进行选择。 我考虑了6个DPUs(4 vCPUs + 16 GB内存),ETL作业运行10分钟,持续30天。预计爬虫请求超过免费配额,并计算每100万个附加请求的1美元。 在EMR上,我考虑了m3.xlarge用于...
我该如何在AWS Glue Job中实现可选参数? 我创建了一个作业,它目前具有字符串参数(ISO 8601日期字符串)作为输入,用于ETL作业。我想使此参数可选,以便作业在未提供参数时使用默认值(例如,在我的情况下使用datetime.now和datetime.isoformat)。我尝试...
我在AWS Glue控制台创建了一个开发终端,并且现在可以在gluepyspark控制台中访问SparkContext和SQLContext。 我该如何访问目录并列出所有数据库和表?通常的sqlContext.sql("show tables").show()无效。 可能有帮助的是Cata...
如何在AWS的Glue中使用NumPy和Pandas等包是最简单的方法?我有一个使用NumPy和Pandas的Python脚本,我想在AWS Glue中运行。
我正在使用AWS S3、Glue和Athena来进行如下设置: S3 --> Glue --> Athena 我的原始数据以CSV文件的形式存储在S3上。我使用Glue进行ETL,并使用Athena查询数据。 由于我使用Athena,我想将CSV文件转换为Parquet格式。目前我正在使...
第一部分: 我尝试使用黏合剂爬虫在S3上加载的虚拟CSV文件中运行,它创建了一个表格,但是当我尝试在Athena中查看表格并查询时,它显示返回零条记录。 但是,在Athena中的ELB演示数据可以正常工作。 第二部分(场景): 假设我有一个Excel文件和一个描述数据存储方式和格式的数...
我尝试将我的Spark数据框转换为动态框以输出为Glueparquet文件,但我遇到了错误: "'DataFrame'对象没有属性'fromDF'" 我的代码大量使用Spark数据框。是否有一种方法可以将Spark数据框转换为动态框,以便我可以写出Glueparquet?如果可以,...
我有一个用Python编写的ETL作业,它由多个脚本组成,具有以下目录结构;my_etl_job | |--services | | | |-- __init__.py | |-- dynamoDB_service.py | |-- __init__.py |-- mai...
我正在努力构建公司的新数据湖,并尝试找到最好和最新的选项来在这里工作。因此,我找到了一个非常不错的解决方案,它包括使用EMR + S3 + Athena + Glue来工作。 我所做的过程是: 1 - 运行Apache Spark脚本,在S3上生成30百万行按日期分区存储的orc文件。 ...