13得票2回答
Apache Beam 基于 Apache Kafka 的流处理

Apache Beam和Apache Kafka在流处理方面有哪些不同之处?我试图理解技术和编程上的区别。 请通过你的经验帮助我理解。

12得票3回答
Apache Beam计数器/指标在Flink WebUI中不可用。

我正在使用Flink 1.4.1和Beam 2.3.0,想知道是否可以像Dataflow WebUI那样,在Flink WebUI(或其他任何地方)中使用度量指标? 我已经使用了计数器:import org.apache.beam.sdk.metrics.Counter; import or...

12得票1回答
import apache_beam的metaclass冲突

当我尝试导入Apache Beam时,我会遇到以下错误。>>> import apache_beam Traceback (most recent call last): File "<stdin>", line 1, in <module> ...

12得票3回答
数据流水线 - “处理在状态完成中至少 <TIME> 的步骤 <STEP_NAME> 中被卡住,不输出或完成…”

我团队开发的Dataflow数据流水线突然开始出现卡顿,停止处理我们的事件。他们的工作日志充满了警告消息,指出一个特定步骤被卡住了。奇怪的是,失败的步骤是不同的,一个是BigQuery输出,另一个是Cloud Storage输出。 以下是我们收到的日志消息: 对于 BigQuery 输出:...

11得票1回答
Apache Beam - 无界 PCollection 的集成测试

我们正在为Apache Beam管道构建集成测试,并遇到了一些问题。下面是相关内容... 有关我们的管道的详细信息: - 我们使用`PubsubIO`作为数据源(无限的`PCollection`) - 中间转换包括自定义`CombineFn`和非常简单的窗口/触发策略 - 我们最终的转换是...

11得票2回答
在Apache Beam中将不同值写入不同的BigQuery表

假设我有一个PCollection&lt;Foo&gt;,我想将其写入多个BigQuery表格,并为每个Foo选择不同的表格。使用Apache Beam的BigQueryIO API,我该如何实现?

10得票3回答
在Python Dataflow / Apache Beam上启动CloudSQL代理

我目前正在开发一个ETL数据流作业(使用Apache Beam Python SDK),它从CloudSQL(使用psycopg2和自定义的ParDo)查询数据并将其写入BigQuery。我的目标是创建一个Dataflow模板,我可以使用Cron作业从AppEngine启动。 我有一个本地工...

10得票1回答
使用Apache Beam进行窗口化 - 固定窗口似乎没有关闭?

我们正在尝试在Apache Beam管道上(使用DirectRunner)使用固定窗口。我们的流程如下: 从pub/sub中获取数据 将JSON反序列化为Java对象 使用5秒的固定窗口对事件进行分窗 使用自定义CombineFn,将每个Event窗口组合成一个List&lt;Event&...

10得票5回答
Kotlin可迭代对象在Apache Beam中不受支持?

Apache Beam 似乎拒绝识别 Kotlin 的 Iterable。以下是示例代码: @ProcessElement fun processElement( @Element input: KV&lt;String, Iterable&lt;String&gt;&gt;, re...

10得票2回答
在Mac的zsh终端上安装apache-beam [gcp]时出现错误 - “zsh:未找到匹配项:apache-beam [gcp]”

我使用的是zsh,为了通过Mac本地终端与GCP进行交互,我已安装了gcloud。我遇到了这个错误:"zsh:没有找到匹配项:apache-beam [gcp]"。然而,在GCP控制台上直接在bash终端运行该命令时,并没有出现这样的错误。我该怎么处理?谢谢。