12得票1回答
import apache_beam的metaclass冲突

当我尝试导入Apache Beam时,我会遇到以下错误。>>> import apache_beam Traceback (most recent call last): File "<stdin>", line 1, in <module> ...

12得票2回答
如何重新启动已取消的Cloud Dataflow流式作业?

我已经创建了一个标准的PubSub到BigQuery数据流。但是,为了确保我在离线状态下不会产生巨额账单,我取消了该数据流。从GCP控制台看,似乎没有重新启动它的选项 - 这可行吗?是否可以通过控制台或shell重新启动它(如果可以,如何操作)?

12得票5回答
如何将Google Cloud SQL与Google Big Query集成

我正在设计一个解决方案,其中将使用Google Cloud SQL来存储应用程序的所有常规运行数据(一种OLTP数据)。预计这些数据会随着时间的推移而变得非常庞大。由于数据本身具有关系型特性,因此我们选择了Cloud SQL而不是Cloud Datastore。 需要将这些数据输入到BigQ...

12得票1回答
源码与PTransform

我是项目新手,正试图在Dataflow和数据库之间创建一个连接器。 文档清楚地说明了我应该使用Source和Sink,但我看到很多人直接使用与PInput或PDone相关联的PTransform。 源/汇API处于实验阶段(这解释了所有带有PTransform的示例),但似乎更容易将其与自...

12得票4回答
“无服务器”和“完全托管”有什么区别?

根据Google Cloud文档,Cloud Dataflow是无服务器的,而Cloud Firestore是完全托管的。如果无服务器意味着基础架构和资源由云提供商管理。 那么这两种范例之间有什么区别呢?

12得票3回答
谷歌云数据流与谷歌云数据融合的比较

我最近看到GCP中有一个名为Data Fusion的新工具,看起来它是一种比Dataflow更容易创建ETL流水线的方式。那么,我们可以认为它是Dataflow的替代品吗?

12得票4回答
将FTP上传到Google存储

每天有一些文件被上传到FTP服务器,我需要将这些文件存储在Google Cloud Storage中。我不想打扰上传文件的用户安装任何额外的软件,只想让他们继续使用他们的FTP客户端。 有没有办法将GCS用作FTP服务器?如果不能,那么我该如何创建一个定期从FTP位置提取文件并将其放入GCS的...

12得票3回答
数据流水线 - “处理在状态完成中至少 <TIME> 的步骤 <STEP_NAME> 中被卡住,不输出或完成…”

我团队开发的Dataflow数据流水线突然开始出现卡顿,停止处理我们的事件。他们的工作日志充满了警告消息,指出一个特定步骤被卡住了。奇怪的是,失败的步骤是不同的,一个是BigQuery输出,另一个是Cloud Storage输出。 以下是我们收到的日志消息: 对于 BigQuery 输出:...

11得票1回答
Apache Beam - 无界 PCollection 的集成测试

我们正在为Apache Beam管道构建集成测试,并遇到了一些问题。下面是相关内容... 有关我们的管道的详细信息: - 我们使用`PubsubIO`作为数据源(无限的`PCollection`) - 中间转换包括自定义`CombineFn`和非常简单的窗口/触发策略 - 我们最终的转换是...

11得票2回答
如何修复Dataflow无法序列化我的DoFn?

当我运行我的Dataflow管道时,我遇到了以下异常,抱怨我的DoFn无法序列化。我该如何解决这个问题? 以下是堆栈跟踪信息:Caused by: java.lang.IllegalArgumentException: unable to serialize contrail.dataflo...