将GCP PostgreSQL表同步到GCP BigQuery

9

我们目前使用Stitchdata定期将数据从PostgreSQL实例同步到BigQuery实例中,用于构建报告。Stitchdata允许构建一个管道,只需勾选几个复选框和选项,而无需编写代码。

我想知道Google Cloud Platform是否提供解决方案,以允许将PostgreSQL数据库(托管在GCP上)同步到BigQuery表中。这是为了解决数据主权和用户数据隐私问题。

我们不想使用联合查询,因为我们只想从PostgreSQL导入特定列到BigQuery中。

我查看了:

  • Datastream + Data Fusion(Datastream尚不支持Postgres)
  • BigQuery数据传输+ Fivetran Postgres连接器(这将导致数据转移到第三方处理器。)
  • Data Fusion(不支持PostgreSQL的复制)

我想知道是否有任何明显的Google Cloud Platform提供的方法可以将数据从我们的PostgreSQL数据库同步到BigQuery中。

谢谢


2
你能解释一下为什么不想使用联合表吗?这是最好的解决方案,你可以在Cloud SQL中查询你想要的数据(和列),然后将它们加载到BigQuery表中(或者合并它们以去除重复项)。你能多说一些吗? - guillaume blaquiere
@guillaumeblaquiere 我的主要想法是:
  • 自动化进程,将PG中的表与BQ同步。(至少数据更改,不太关心删除。)
  • 然后在BQ中创建视图,从源表中排除敏感列,并将这些视图共享给不同部门,以使他们能够创建自己的仪表板。
联合查询存在一些限制,我们宁愿不要对生产PG进行额外的负载。
- Bill
1
您将使用任何解决方案来添加负载。是否可以添加读取副本以请求它而不是主服务器? - guillaume blaquiere
@Bill,你能找到解决方案吗?我正在尝试做类似的事情。 - user2491463
@user2491463 没有,我还没有找到本地/托管的GCP解决方案。我已经联系了GCP的支持团队,他们提到将很快支持从PostgreSQL到BQ的复制。但是,没有具体的时间表。 - Bill
显示剩余3条评论
1个回答

0
GCP Datastream现在支持从PostgreSQL到BigQuery的CDC。尽管如此,目前我们还遇到了一些问题。例如,无法在BigQuery端使用分区表,因为Datastream会创建它们,而我们无法控制此操作。如果我们正在从PostgreSQL同步一个非常大的表,然后构建一些ETL,那么将会扫描大量的数据。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接