79得票7回答
Google Cloud Dataflow和Google Cloud Dataproc有什么区别?

我正在使用Google Data Flow实现ETL数据仓库解决方案。 查看谷歌云服务,似乎DataProc也可以做同样的事情。 看起来DataProc比DataFlow便宜一点。 有人知道DataFlow相对于DataProc的优缺点吗? 为什么谷歌会同时提供这两种服务呢?

37得票3回答
Apache Beam:FlatMap和Map有什么区别?

我想了解在哪种情况下应该使用FlatMap或Map。 文档 对我来说不够清晰。 我仍然不理解在哪种情况下应该使用FlatMap或Map转换。 能否举个例子,以便我理解它们之间的区别? 我了解Spark中FlatMap与Map的区别,但不确定是否有相似之处?

32得票4回答
谷歌数据流与Apache Spark对比

我正在调查Google Dataflow和Apache Spark,以决定哪个更适合我们的大数据分析业务需求。 我发现在Spark平台上有Spark SQL和MLlib用于结构化数据查询和机器学习。 我想知道Google Dataflow 平台上是否有相应的解决方案?

29得票2回答
Apache Beam: DoFn与PTransform的区别

DoFn和PTransform都是定义PCollection操作的手段。在使用时,我们如何知道应该使用哪个?

25得票2回答
谷歌 Dataflow 作业成本优化

我已经运行了以下代码,用于处理522个大小为100GB的gzip文件,解压后大约会有320GB的数据,并且数据是以protobuf格式输出到GCS。我使用了n1标准机器和输入输出所在的区域,整个任务花费了我约17美元,这是半小时数据的成本,因此我非常需要进行一些成本优化。以下是查询得到的成本。...

22得票3回答
直接将流式数据导入BigQuery的优缺点与通过Google Pub/Sub + Dataflow导入的优缺点

我们在Google Kubernetes Engine上托管了一个NodeJS API,并希望开始将事件记录到BigQuery中。 我可以看到有三种不同的方法来实现这一目标: 使用Node BigQuery SDK中的API将每个事件直接插入BigQuery(如在“Streaming I...

21得票2回答
当移动数据时,使用Dataflow而不是云函数有哪些好处?

我对GCP还比较新,并且刚开始在GCP上设置/评估我们组织的架构。 场景: 数据将流入pub/sub主题(高频率,低数据量)。目标是将该数据移动到Big Table。据我所知,可以通过在主题上触发云函数或使用Dataflow来实现此目的。 现在我之前有过使用云函数的经验,并且对其感到满意...

21得票4回答
使用Dataflow和Cloud Composer的区别

我希望能够澄清一下,是 Cloud Dataflow 还是 Cloud Composer 更适合这项工作,但我在 Google 文档中并没有得到明确的答案。 目前,我正在使用 Cloud Dataflow 读取一个非标准的 csv 文件——做一些基本处理——然后将其加载到 BigQuery ...

19得票2回答
如何删除一个gcloud Dataflow作业?

我的仪表板上到处都是 Dataflow 作业,我想从项目中删除失败的作业。但在仪表板上,我没有看到任何删除 Dataflow 作业的选项。我希望至少看到如下的选项:$ gcloud beta dataflow jobs delete JOB_ID 要删除所有作业,$ gcloud beta d...

19得票4回答
数据流设置控制器服务账户

我尝试为Dataflow设置控制器服务账户。在我的dataflow选项中,我有:options.setGcpCredential(GoogleCredentials.fromStream( new FileInputStream("k...