我已设置了一个Airflow工作流,将一些文件从S3导入到Google Cloud存储,并运行一系列SQL查询的工作流程以在Big Query上创建新表。在工作流结束时,我需要将一个最终的Big Query表的输出推送到Google Cloud Storage,然后再从那里推送到S3。
我已经使用BigQueryToCloudStorageOperator Python操作符成功地传输了Big Query表格到Google Cloud Storage,但似乎从Google Cloud Storage到S3的传输是不太常见的路线,我无法找到一个可以在我的Airflow工作流中自动化的解决方案。
我知道gsutil的一部分是rsync,并且已经使其工作(请参见Exporting data from Google Cloud Storage to Amazon S3),但我无法将其添加到我的工作流中。
我有一个运行在计算引擎实例上的docker化的Airflow容器。
非常感谢您解决这个问题。
非常感谢!
我已经使用BigQueryToCloudStorageOperator Python操作符成功地传输了Big Query表格到Google Cloud Storage,但似乎从Google Cloud Storage到S3的传输是不太常见的路线,我无法找到一个可以在我的Airflow工作流中自动化的解决方案。
我知道gsutil的一部分是rsync,并且已经使其工作(请参见Exporting data from Google Cloud Storage to Amazon S3),但我无法将其添加到我的工作流中。
我有一个运行在计算引擎实例上的docker化的Airflow容器。
非常感谢您解决这个问题。
非常感谢!
distcp
进行了传输。一旦我成功使用airflow的DataProcHadoopOperator
,我会更新答案。 - D_usv