13得票1回答
如何配置Spark / Glue以避免在Glue作业成功执行后创建空的$_folder_$?

我有一个简单的Glue ETL作业,由Glue工作流触发。它从爬虫表中删除重复数据,并将结果写回到S3存储桶中。任务已成功完成。然而,spark生成的空文件夹"$folder$"仍然存在于S3中。这在层次结构中看起来不美观并导致混乱。是否有任何方法配置Spark或Glue上下文,在作业成功完成...

8得票1回答
在使用S3路径的Hive中执行'CREATE TABLE AS'操作时,出现“无法从空字符串创建路径”错误。

我正在尝试在EMR上使用Hive中的Spark创建一个具有S3路径位置的Glue目录表。 我已经尝试了以下命令,但是出现了错误: pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: Can n...

8得票1回答
AWS Glue工人的G.1X和G.2X定价细节

我已经搜索了AWS Glue文档,但是找不到AWS Glue工作类型G.1X和G.2X的定价细节。请问是否标准版、G.1X和G.2X之间没有费用差异?在Glue的定价部分,我只看到"每个DPU小时按$0.44计费,以1秒为增量,四舍五入到最近的一秒。使用Glue版本2.0的Glue Spark...

7得票1回答
如何在AWS Glue PySpark中运行并行线程?

我有一个Spark作业,它将从多个相同的表中提取数据进行转换。基本上是在一个表格列表上循环迭代,查询目录表添加时间戳,然后推入到Redshift(如下面的示例)。 这个作业大约需要30分钟才能完成。是否有办法在同一个spark/glue上下文中并行运行这些作业呢?如果可避免,我不想创建单独的...