得票数最多 'apache-beam' 问题

关联标签

117得票3回答

Apache Beam相比于Spark/Flink在批处理方面的优势有哪些？

Apache Beam 支持多个执行引擎后端，包括 Apache Spark 和 Flink。我熟悉 Spark/Flink，并试图了解 Beam 在批处理方面的优势和劣势。通过查看Beam单词计数示例，感觉它与原生的Spark/Flink等价物非常相似，可能语法稍微冗长一些。目前我并...

apache-sparkapache-flinkapache-beam

86得票4回答

用于数据处理和作业调度的选择：Apache Airflow还是Apache Beam？

我试图提供有用的信息，但我离数据工程师还很远。我目前正在使用Python库pandas对我的数据执行一系列长时间的转换，其中有许多输入（目前是CSV和Excel文件）。输出是几个Excel文件。我希望能够执行定期监控的批处理作业，并进行并行计算（我指的是不像我使用pandas那样顺序执行）...

pandasairflowapache-beam

65得票2回答

解释Apache Beam的Python语法

我已阅读Beam文档并查看Python文档，但没有找到大多数Apache Beam示例代码中使用的语法的良好解释。请问有人能够解释下面代码中_，|和>>的作用吗？此外，引号中的文本 'ReadTrainingData' 有意义吗？还是可以用任何其他标签替换它？换句话说，该标签如何被...

pythonapache-beam

56得票2回答

Apache Beam是什么？

我正在查看Apache的文章，发现了一个新术语叫做Beam。有人能解释一下Apache Beam到底是什么吗？我尝试过谷歌搜索，但没有得到清晰的答案。我阅读了Apache的帖子，发现了一个新术语叫做Beam。可以有人解释一下Apache Beam是什么吗？我尝试使用谷歌搜索，但没有找到明确...

apache-beam

37得票3回答

Apache Beam：FlatMap和Map有什么区别？

我想了解在哪种情况下应该使用FlatMap或Map。文档对我来说不够清晰。我仍然不理解在哪种情况下应该使用FlatMap或Map转换。能否举个例子，以便我理解它们之间的区别？我了解Spark中FlatMap与Map的区别，但不确定是否有相似之处？

google-cloud-dataflowapache-beam

29得票2回答

Apache Beam: DoFn与PTransform的区别

DoFn和PTransform都是定义PCollection操作的手段。在使用时，我们如何知道应该使用哪个？

google-cloud-dataflowapache-beam

26得票1回答

DoFn.Setup和DoFn.StartBundle之间有什么区别？（这是一个关于IT技术的提问标题）

这两个注释有什么区别？ DoFn.Setup：用于准备实例以处理元素束的方法。使用“bundle”一词，不带参数。 DoFn.StartBundle：用于准备实例以处理批量元素的方法。使用“batch”一词，可以使用零个或一个参数(StartBundleContext, 一种访问P...

javaapache-beam

25得票2回答

谷歌 Dataflow 作业成本优化

我已经运行了以下代码，用于处理522个大小为100GB的gzip文件，解压后大约会有320GB的数据，并且数据是以protobuf格式输出到GCS。我使用了n1标准机器和输入输出所在的区域，整个任务花费了我约17美元，这是半小时数据的成本，因此我非常需要进行一些成本优化。以下是查询得到的成本。...

pythonprotocol-buffersgoogle-cloud-dataflowapache-beamavro

21得票1回答

如何在 Apache Beam 中表达跨越长时间的反规范化连接？

提供背景说明，我从未使用过Beam。我正在尝试理解如何将Beam模型应用于常见用例。假设您有一个无界的生产者集合和一个无界的产品集合，每个产品都有一个生产者（一对多，生产者对产品）。您还有另外一个属性：产品的生产者出现在其产品之前（或之后不久）。但是，生产者可能会比其产品早几年出现。如...

apache-beam

21得票4回答

使用Dataflow和Cloud Composer的区别

我希望能够澄清一下，是 Cloud Dataflow 还是 Cloud Composer 更适合这项工作，但我在 Google 文档中并没有得到明确的答案。目前，我正在使用 Cloud Dataflow 读取一个非标准的 csv 文件——做一些基本处理——然后将其加载到 BigQuery ...

google-cloud-dataflowairflowapache-beamgoogle-cloud-composer