通过DMS AWS服务将数据从RDS Postgres数据库迁移到S3

Question

通过DMS AWS服务将数据从RDS Postgres数据库迁移到S3

postgresqlamazon-s3data-migrationaws-dmschange-data-capture

3

我正在通过DMS AWS服务将数据从RDS Postgres数据库迁移到S3，任务类型是全量加载和CDC（增量变更）。

假设现在我有一个名为employee的postgres表中的一些数据。例如： | emp_id | emp_name | |--------|----------| | 1 | John | | 2 | Angel |

当任务最初创建时，会进行全量加载，并在s3目标位置创建LOAD00000____.parquet文件。现在我正在向表中插入另一行： | emp_id | emp_name | |--------|----------| | 3 | Ram |

现在发生了CDC操作，并创建了一个日期文件夹（20220101 /），其中包含一个parquet文件。

实际上，我想尽管在重新加载表后发生截断/删除操作，仍要保留目标中的表。

"ChangeProcessingDdlHandlingPolicy": {
  "HandleSourceTableDropped": false,
  "HandleSourceTableTruncated": false,
  "HandleSourceTableAltered": false
}

我在任务设置中有这些配置。期望在我截断/删除postgresql表并重新加载后，目标数据不应分别被截断/删除。然而，无论我在HandleSourceTableDropped和HandleSourceTableTruncated的配置键中给出的值是什么，目标文件夹都会被删除。

我的task_setting.json文件也有：

"TargetTablePrepMode": "TRUNCATE_BEFORE_LOAD",

问题：

为什么在重新加载时S3文件夹会被删除？而且无论我为ChangeProcessingDdlHandlingPolicy中的键提供哪些值(True / False)。
ChangeProcessingDdlHandlingPolicy 这个配置对象是什么意思？

- Nandini Raja

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mradul Yd · Answer 1

根据我对此的最佳理解，首先回答您的问题——

所以设置ChangeProcessingDdlHandlingPolicy与DDL有关，这在大多数情况下是针对目标数据库实例的情况。更多相关信息请点击这里。

由于在您的情况下，目标是s3，因此这些设置并不重要，将被忽略。

现在，如果你想让你的目标文件夹在重新加载时不受影响，你可以尝试使用"TargetTablePrepMode": "Do Nothing"（如果语法正确的话）。

但是，无论如何，当您重新加载（即重启任务）时，目标上的数据都将被覆盖。虽然如果您希望保留数据迁移，并且从上一次停止的点开始恢复任务，则可以恢复任务。

关于此，请点击这里。