首先,我不确定现有的Snowpipe功能是否可以实现您的需求。
我有一个包含数年数据的S3存储桶,偶尔会更新其中某些文件(文件名不变,但内容会更改)。我希望使用Snowpipe将这些文件导入Snowflake,因为“我们不会重新导入已经被修改的文件”的方面对我很有吸引力。
然而,我发现
除了“修改所有这些文件的S3以便它们具有最近的修改时间戳”之外,是否还有其他方法可以让我在此情况下使用Snowpipe?
我有一个包含数年数据的S3存储桶,偶尔会更新其中某些文件(文件名不变,但内容会更改)。我希望使用Snowpipe将这些文件导入Snowflake,因为“我们不会重新导入已经被修改的文件”的方面对我很有吸引力。
然而,我发现
ALTER PIPE ... REFRESH
只能用于导入七天前的数据,而Snowflake文档对导入历史数据的唯一建议是使用COPY INTO ...
。但是,如果我使用它,那么如果那些旧文件被修改,它们就会通过Snowflake导入,因为防止COPY INTO ...
重复导入S3文件的元数据和Snowpipe的元数据是不同的,所以我最终可能会导入两次同一文件。除了“修改所有这些文件的S3以便它们具有最近的修改时间戳”之外,是否还有其他方法可以让我在此情况下使用Snowpipe?