我正在使用Google Data Flow实现ETL数据仓库解决方案。 查看谷歌云服务,似乎DataProc也可以做同样的事情。 看起来DataProc比DataFlow便宜一点。 有人知道DataFlow相对于DataProc的优缺点吗? 为什么谷歌会同时提供这两种服务呢?
我想了解在哪种情况下应该使用FlatMap或Map。 文档 对我来说不够清晰。 我仍然不理解在哪种情况下应该使用FlatMap或Map转换。 能否举个例子,以便我理解它们之间的区别? 我了解Spark中FlatMap与Map的区别,但不确定是否有相似之处?
我正在调查Google Dataflow和Apache Spark,以决定哪个更适合我们的大数据分析业务需求。 我发现在Spark平台上有Spark SQL和MLlib用于结构化数据查询和机器学习。 我想知道Google Dataflow 平台上是否有相应的解决方案?
DoFn和PTransform都是定义PCollection操作的手段。在使用时,我们如何知道应该使用哪个?
我已经运行了以下代码,用于处理522个大小为100GB的gzip文件,解压后大约会有320GB的数据,并且数据是以protobuf格式输出到GCS。我使用了n1标准机器和输入输出所在的区域,整个任务花费了我约17美元,这是半小时数据的成本,因此我非常需要进行一些成本优化。以下是查询得到的成本。...
我们在Google Kubernetes Engine上托管了一个NodeJS API,并希望开始将事件记录到BigQuery中。 我可以看到有三种不同的方法来实现这一目标: 使用Node BigQuery SDK中的API将每个事件直接插入BigQuery(如在“Streaming I...
我对GCP还比较新,并且刚开始在GCP上设置/评估我们组织的架构。 场景: 数据将流入pub/sub主题(高频率,低数据量)。目标是将该数据移动到Big Table。据我所知,可以通过在主题上触发云函数或使用Dataflow来实现此目的。 现在我之前有过使用云函数的经验,并且对其感到满意...
我希望能够澄清一下,是 Cloud Dataflow 还是 Cloud Composer 更适合这项工作,但我在 Google 文档中并没有得到明确的答案。 目前,我正在使用 Cloud Dataflow 读取一个非标准的 csv 文件——做一些基本处理——然后将其加载到 BigQuery ...
我的仪表板上到处都是 Dataflow 作业,我想从项目中删除失败的作业。但在仪表板上,我没有看到任何删除 Dataflow 作业的选项。我希望至少看到如下的选项:$ gcloud beta dataflow jobs delete JOB_ID 要删除所有作业,$ gcloud beta d...
我尝试为Dataflow设置控制器服务账户。在我的dataflow选项中,我有:options.setGcpCredential(GoogleCredentials.fromStream( new FileInputStream("k...