我有一些数据存储在S3桶中,包含许多类似于以下内容的json文件:
s3://bucket1/news/year=2018/month=01/day=01/hour=xx/
day
分区包含多个 hour=xx
分区,每个分区代表一天中的一个小时。我在 day
分区上运行 Glue ETL 作业,并创建了一个 Glue dynamic_frame_from_options
。然后,我使用 ApplyMapping.apply
进行一些映射,效果非常好。
但是,我希望基于每个文件的分区创建一个新列,其中包含 hour
值。我可以使用 Spark 创建一个包含常量的新列,但是如何使此列使用分区作为源呢?
df1 = dynamicFrame.toDF().withColumn("update_date", lit("new column value"))
编辑1
AWS的一篇文章介绍了如何使用分区数据,其中在创建dynamicFrame之前使用了Glue爬虫,并从Glue目录中创建dynamicFrame。我需要直接从S3源创建dynamicFrame。 输入链接说明
dynamicFrame
。我需要直接从 S3 源创建dynamicFrame
。 - Cactus