9得票2回答
如何在Java中从Cloud Function触发Cloud Dataflow管道作业?

我有一个需求,需要从Cloud Functions触发Cloud Dataflow流水线。但是,Cloud Function必须使用Java编写。因此,Cloud Function的触发器是Google Cloud Storage的Finalize/Create事件,也就是说,当上传文件到GC...

7得票1回答
使用Dataflow进行图像预处理

任务: 我需要运行一个ETL作业,从GCS中提取TIFF图像,使用开源计算机视觉工具(如OpenCV + Tesseract)将这些图像转换为文本,并最终将数据加载到BigQuery中。 问题: 我正在尝试使用Dataflow执行ETL作业,因为我有数百万张图像(每个图像都是单独的文件/ b...

9得票2回答
Dataflow / Apache Beam - 当传入模式时如何访问当前文件名?

我之前在stackoverflow上看到过这个问题的答案(https://dev59.com/TIrda4cB1Zd3GeqPLV18),但是自从Apache Beam为Python添加可分割dofn功能后,就没有更新了。当我向gcs存储桶传递文件模式时,如何访问当前正在处理的文件的文件名? ...

12得票5回答
如何将Google Cloud SQL与Google Big Query集成

我正在设计一个解决方案,其中将使用Google Cloud SQL来存储应用程序的所有常规运行数据(一种OLTP数据)。预计这些数据会随着时间的推移而变得非常庞大。由于数据本身具有关系型特性,因此我们选择了Cloud SQL而不是Cloud Datastore。 需要将这些数据输入到BigQ...

8得票1回答
将数据流管道的输出写入分区目标

我们有一个单一的流事件源,每秒钟会有数千个事件,这些事件都带有一个标识符,用于标识该事件属于我们成千上万的客户之一。我们想要使用这个事件源来填充数据仓库(以流模式),但是,我们的事件源不是持久的,因此,我们还想将原始数据存档在GCS中,以便在我们进行需要时可以通过我们的数据仓库管道重新播放它。...

8得票2回答
数据流模板:Cloud Pub/Sub 主题 vs. 连接到 BigQuery 的订阅

我正在搭建一个简单的概念验证测试,了解Google Cloud中一些概念,特别是PubSub和Dataflow。 我有一个PubSub主题greeting 我创建了一个简单的云函数,向该主题发布消息: const escapeHtml = require('escape-html'); ...

8得票1回答
复杂的连接与Google Dataflow相关

我是一名新手,试图理解如何将批量ETL过程重写为Google Dataflow。我已经阅读了一些文档,并运行了一些示例。 我建议新的ETL过程应由业务事件(即源PCollection)驱动。这些事件将触发特定业务实体的ETL过程。 ETL过程将从源系统中提取数据集,然后将这些结果(PColl...

9得票1回答
谷歌数据融合能否进行与DataPrep相同的数据清洗?

我想用一些数据来运行一个机器学习模型。在使用这个数据训练模型之前,我需要对它进行处理,所以我一直在阅读一些处理数据的方法。 首先创建一个Dataflow管道将其上传到Bigquery或Google Cloud Storage,然后使用Google Dataprep创建一个数据管道来清理它。...

7得票1回答
apache_beam.transforms.util.Reshuffle() 在GCP Dataflow中不可用。

我通过pip install --upgrade apache_beam[gcp]升级到了最新的apache_beam[gcp]包,然而我发现在[gcp]分发中没有出现Reshuffle()。这是否意味着我将无法在任何dataflow管道中使用Reshuffle()?有什么解决办法吗?或者可能...

8得票3回答
从Google Dataflow访问运行在GKE中的HTTP服务

我在Google容器引擎集群上运行了一个HTTP服务(在Kubernetes服务后面)。我的目标是通过固定名称从同一GCP项目中运行的Dataflow作业访问该服务(就像可以使用DNS从GKE内部访问服务一样)。有什么想法吗? 我在stackoverflow上读到的大多数解决方案都依赖于在...