我有一个Spark批处理作业,每小时执行一次。每次运行会生成并存储新数据到S3
,目录命名模式为DATA/YEAR=?/MONTH=?/DATE=?/datafile
。
上传数据到S3
后,我想使用Athena
进行调查研究。此外,我还希望通过将Athena连接到QuickSight
作为数据源来对其进行可视化。
问题是,每次运行我的Spark批处理后,存储在S3
中的新生成数据,除非我手动运行查询MSCK REPAIR TABLE
,否则Athena不会发现它们。
是否有办法使Athena自动更新数据,以便我可以创建完全自动化的数据可视化流程?