我有一个简单的Glue ETL作业,由Glue工作流触发。它从爬虫表中删除重复数据,并将结果写回到S3存储桶中。任务已成功完成。然而,spark生成的空文件夹"$folder$"仍然存在于S3中。这在层次结构中看起来不美观并导致混乱。是否有任何方法配置Spark或Glue上下文,在作业成功完成...
我正在尝试在EMR上使用Hive中的Spark创建一个具有S3路径位置的Glue目录表。 我已经尝试了以下命令,但是出现了错误: pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: Can n...
我已经搜索了AWS Glue文档,但是找不到AWS Glue工作类型G.1X和G.2X的定价细节。请问是否标准版、G.1X和G.2X之间没有费用差异?在Glue的定价部分,我只看到"每个DPU小时按$0.44计费,以1秒为增量,四舍五入到最近的一秒。使用Glue版本2.0的Glue Spark...
我有一个Spark作业,它将从多个相同的表中提取数据进行转换。基本上是在一个表格列表上循环迭代,查询目录表添加时间戳,然后推入到Redshift(如下面的示例)。 这个作业大约需要30分钟才能完成。是否有办法在同一个spark/glue上下文中并行运行这些作业呢?如果可避免,我不想创建单独的...