得票数最多 'aws-glue' 问题 - 第3页

关联标签

20得票4回答

通过AWS API在Glue表上添加分区？

我有一个S3桶，里面不断地填充新数据。我正在使用Athena和Glue查询该数据，但问题是如果Glue不知道新分区被创建了，就无法搜索需要搜索的内容。如果每次需要新的分区时都要进行API调用来运行Glue爬虫，那么成本太高了，因此最好的解决方案是告诉Glue添加了一个新分区，即在其属性表中创建...

amazon-web-servicesamazon-s3amazon-athenaaws-glue

20得票4回答

AWS Glue和AWS EMR的定价对比

我正在对比AWS Glue和AWS EMR的定价，以便在EMR和Glue之间进行选择。我考虑了6个DPUs（4 vCPUs + 16 GB内存），ETL作业运行10分钟，持续30天。预计爬虫请求超过免费配额，并计算每100万个附加请求的1美元。在EMR上，我考虑了m3.xlarge用于...

amazon-web-servicesamazon-emraws-gluecost-management

18得票8回答

AWS Glue 中的可选工作参数是什么？

我该如何在AWS Glue Job中实现可选参数？我创建了一个作业，它目前具有字符串参数（ISO 8601日期字符串）作为输入，用于ETL作业。我想使此参数可选，以便作业在未提供参数时使用默认值（例如，在我的情况下使用datetime.now和datetime.isoformat）。我尝试...

pythonamazon-web-servicesaws-glue

17得票4回答

如何在AWS Glue目录中列出所有数据库和表？

我在AWS Glue控制台创建了一个开发终端，并且现在可以在gluepyspark控制台中访问SparkContext和SQLContext。我该如何访问目录并列出所有数据库和表？通常的sqlContext.sql("show tables").show()无效。可能有帮助的是Cata...

apache-spark-sqlaws-glue

16得票13回答

使用AWS Glue Python与NumPy和Pandas Python包

如何在AWS的Glue中使用NumPy和Pandas等包是最简单的方法？我有一个使用NumPy和Pandas的Python脚本，我想在AWS Glue中运行。

pythonpandasamazon-web-servicesaws-lambdaaws-glue

16得票5回答

如何使用AWS Glue将多个CSV文件转换成Parquet格式

我正在使用AWS S3、Glue和Athena来进行如下设置： S3 --> Glue --> Athena 我的原始数据以CSV文件的形式存储在S3上。我使用Glue进行ETL，并使用Athena查询数据。由于我使用Athena，我想将CSV文件转换为Parquet格式。目前我正在使...

amazon-s3parquetamazon-athenaaws-glue

16得票9回答

AWS Athena从由GLUE爬虫输入的S3 CSV创建的表中返回零条记录

第一部分：我尝试使用黏合剂爬虫在S3上加载的虚拟CSV文件中运行，它创建了一个表格，但是当我尝试在Athena中查看表格并查询时，它显示返回零条记录。但是，在Athena中的ELB演示数据可以正常工作。第二部分（场景）：假设我有一个Excel文件和一个描述数据存储方式和格式的数...

amazon-web-servicescsvamazon-redshiftamazon-athenaaws-glue

16得票2回答

将 Spark DataFrame 转换为 AWS Glue 动态框架。

我尝试将我的Spark数据框转换为动态框以输出为Glueparquet文件，但我遇到了错误： "'DataFrame'对象没有属性'fromDF'" 我的代码大量使用Spark数据框。是否有一种方法可以将Spark数据框转换为动态框，以便我可以写出Glueparquet？如果可以，...

apache-sparkpysparkaws-glue

16得票3回答

如何在AWS Glue作业中使用额外文件

pythonamazon-s3aws-glue

15得票1回答

使用AWS Glue爬虫识别的表出现异常，存储在数据目录中。

我正在努力构建公司的新数据湖，并尝试找到最好和最新的选项来在这里工作。因此，我找到了一个非常不错的解决方案，它包括使用EMR + S3 + Athena + Glue来工作。我所做的过程是： 1 - 运行Apache Spark脚本，在S3上生成30百万行按日期分区存储的orc文件。 ...

amazon-web-servicesapache-sparkamazon-s3amazon-emraws-glue