得票数最多 'aws-glue-spark' 问题

关联标签

13得票1回答

如何配置Spark / Glue以避免在Glue作业成功执行后创建空的$_folder_$？

我有一个简单的Glue ETL作业，由Glue工作流触发。它从爬虫表中删除重复数据，并将结果写回到S3存储桶中。任务已成功完成。然而，spark生成的空文件夹"$folder$"仍然存在于S3中。这在层次结构中看起来不美观并导致混乱。是否有任何方法配置Spark或Glue上下文，在作业成功完成...

amazon-web-servicesaws-glueaws-glue-sparkaws-glue-workflow

8得票1回答

在使用S3路径的Hive中执行'CREATE TABLE AS'操作时，出现“无法从空字符串创建路径”错误。

我正在尝试在EMR上使用Hive中的Spark创建一个具有S3路径位置的Glue目录表。我已经尝试了以下命令，但是出现了错误： pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: Can n...

amazon-web-servicespysparkhiveaws-glue-data-catalogaws-glue-spark

8得票1回答

AWS Glue工人的G.1X和G.2X定价细节

我已经搜索了AWS Glue文档，但是找不到AWS Glue工作类型G.1X和G.2X的定价细节。请问是否标准版、G.1X和G.2X之间没有费用差异？在Glue的定价部分，我只看到"每个DPU小时按$0.44计费，以1秒为增量，四舍五入到最近的一秒。使用Glue版本2.0的Glue Spark...

amazon-web-servicesaws-glueaws-glue-data-catalogaws-glue-spark

7得票1回答

如何在AWS Glue PySpark中运行并行线程？

我有一个Spark作业，它将从多个相同的表中提取数据进行转换。基本上是在一个表格列表上循环迭代，查询目录表添加时间戳，然后推入到Redshift（如下面的示例）。这个作业大约需要30分钟才能完成。是否有办法在同一个spark/glue上下文中并行运行这些作业呢？如果可避免，我不想创建单独的...

apache-sparkpysparkaws-glueaws-glue-spark