得票数最多 'google-cloud-dataflow' 问题 - 第4页

关联标签

11得票2回答

网络默认设置对Dataflow服务帐号不可访问。

在没有本地VPC网络的项目中启动Dataflow作业(2018-07-16_04_25_02-6605099454046602382)时，遇到以下错误 Workflow failed. Causes: Network default is not accessible to Dataflo...

google-cloud-platformgoogle-cloud-dataflow

11得票2回答

将来自CSV的数据分区，以便我可以处理较大的补丁而不是单独的行。

我刚开始接触Google Data Flow，编写了一个从云存储读取CSV文件的简单流程。其中一个步骤涉及调用Web服务来丰富结果。所涉及的Web服务在批量发送几百个请求时表现更佳。在查看API时，我没有发现将PCollection的100个元素聚合成单个Par.do Execution的...

google-cloud-dataflow

11得票2回答

在Apache Beam中将不同值写入不同的BigQuery表

假设我有一个PCollection<Foo>，我想将其写入多个BigQuery表格，并为每个Foo选择不同的表格。使用Apache Beam的BigQueryIO API，我该如何实现？

google-bigquerygoogle-cloud-dataflowapache-beam

10得票3回答

在Python Dataflow / Apache Beam上启动CloudSQL代理

我目前正在开发一个ETL数据流作业（使用Apache Beam Python SDK），它从CloudSQL（使用psycopg2和自定义的ParDo）查询数据并将其写入BigQuery。我的目标是创建一个Dataflow模板，我可以使用Cron作业从AppEngine启动。我有一个本地工...

pythongoogle-cloud-dataflowgoogle-cloud-sqlapache-beamcloud-sql-proxy

10得票6回答

通过Google Cloud Dataflow创建/写入分区BigQuery表

我想利用新的BigQuery时间分区表功能，但不确定在Dataflow SDK的1.6版本中是否可以实现。查看BigQuery JSON API，要创建一个按天分区的表，需要传入一个"timePartitioning": { "type": "DAY" } 虽然选项很多，但是com.googl...

google-bigquerygoogle-cloud-dataflowapache-beam-io

10得票1回答

复杂数据流作业的架构设计

我们正在构建相当复杂的Dataflow作业，从流式数据源计算模型。特别是，我们有两个模型共享一些指标，并且大致上基于相同的数据源进行计算。这些作业在稍微较大的数据集上执行联接。你有关于如何设计这种类型作业的任何指南吗？我们需要考虑哪些指标、行为或其他因素来做出决策？以下是我们考虑的一些...

google-cloud-dataflow

10得票1回答

使用Apache Beam进行窗口化 - 固定窗口似乎没有关闭？

我们正在尝试在Apache Beam管道上（使用DirectRunner）使用固定窗口。我们的流程如下：从pub/sub中获取数据将JSON反序列化为Java对象使用5秒的固定窗口对事件进行分窗使用自定义CombineFn，将每个Event窗口组合成一个List<Event&...

javagoogle-cloud-dataflowapache-beam

10得票5回答

Kotlin可迭代对象在Apache Beam中不受支持？

Apache Beam 似乎拒绝识别 Kotlin 的 Iterable。以下是示例代码： @ProcessElement fun processElement( @Element input: KV<String, Iterable<String>>, re...

kotlingoogle-cloud-dataflowapache-beam

10得票2回答

在Mac的zsh终端上安装apache-beam [gcp]时出现错误 - “zsh：未找到匹配项：apache-beam [gcp]”

我使用的是zsh，为了通过Mac本地终端与GCP进行交互，我已安装了gcloud。我遇到了这个错误："zsh：没有找到匹配项：apache-beam [gcp]"。然而，在GCP控制台上直接在bash终端运行该命令时，并没有出现这样的错误。我该怎么处理？谢谢。

google-cloud-platformgoogle-cloud-dataflowapache-beam

10得票1回答

在Apache Beam中从多个文件夹读取文件，并将输出映射到文件名

使用Python SDK和Dataflow Runner在Apache Beam中从多个文件夹读取文件，然后将文件内容与文件名（filecontents，filename）一起输出到BigQuery。最初的想法是为每个文件创建一个PCollection，然后将文件内容与文件名映射起来。def ...

pythongoogle-cloud-platformgoogle-cloud-dataflowapache-beam