117得票3回答
Apache Beam相比于Spark/Flink在批处理方面的优势有哪些?

Apache Beam 支持多个执行引擎后端,包括 Apache Spark 和 Flink。我熟悉 Spark/Flink,并试图了解 Beam 在批处理方面的优势和劣势。 通过查看Beam单词计数示例,感觉它与原生的Spark/Flink等价物非常相似,可能语法稍微冗长一些。 目前我并...

86得票4回答
用于数据处理和作业调度的选择:Apache Airflow还是Apache Beam?

我试图提供有用的信息,但我离数据工程师还很远。 我目前正在使用Python库pandas对我的数据执行一系列长时间的转换,其中有许多输入(目前是CSV和Excel文件)。输出是几个Excel文件。我希望能够执行定期监控的批处理作业,并进行并行计算(我指的是不像我使用pandas那样顺序执行)...

65得票2回答
解释Apache Beam的Python语法

我已阅读Beam文档并查看Python文档,但没有找到大多数Apache Beam示例代码中使用的语法的良好解释。请问有人能够解释下面代码中_,|和>>的作用吗?此外,引号中的文本 'ReadTrainingData' 有意义吗?还是可以用任何其他标签替换它?换句话说,该标签如何被...

56得票2回答
Apache Beam是什么?

我正在查看Apache的文章,发现了一个新术语叫做Beam。有人能解释一下Apache Beam到底是什么吗?我尝试过谷歌搜索,但没有得到清晰的答案。 我阅读了Apache的帖子,发现了一个新术语叫做Beam。可以有人解释一下Apache Beam是什么吗?我尝试使用谷歌搜索,但没有找到明确...

37得票3回答
Apache Beam:FlatMap和Map有什么区别?

我想了解在哪种情况下应该使用FlatMap或Map。 文档 对我来说不够清晰。 我仍然不理解在哪种情况下应该使用FlatMap或Map转换。 能否举个例子,以便我理解它们之间的区别? 我了解Spark中FlatMap与Map的区别,但不确定是否有相似之处?

29得票2回答
Apache Beam: DoFn与PTransform的区别

DoFn和PTransform都是定义PCollection操作的手段。在使用时,我们如何知道应该使用哪个?

26得票1回答
DoFn.Setup和DoFn.StartBundle之间有什么区别?(这是一个关于IT技术的提问标题)

这两个注释有什么区别? DoFn.Setup:用于准备实例以处理元素束的方法。 使用“bundle”一词,不带参数。 DoFn.StartBundle:用于准备实例以处理批量元素的方法。 使用“batch”一词,可以使用零个或一个参数(StartBundleContext, 一种访问P...

25得票2回答
谷歌 Dataflow 作业成本优化

我已经运行了以下代码,用于处理522个大小为100GB的gzip文件,解压后大约会有320GB的数据,并且数据是以protobuf格式输出到GCS。我使用了n1标准机器和输入输出所在的区域,整个任务花费了我约17美元,这是半小时数据的成本,因此我非常需要进行一些成本优化。以下是查询得到的成本。...

21得票1回答
如何在 Apache Beam 中表达跨越长时间的反规范化连接?

提供背景说明,我从未使用过Beam。我正在尝试理解如何将Beam模型应用于常见用例。 假设您有一个无界的生产者集合和一个无界的产品集合,每个产品都有一个生产者(一对多,生产者对产品)。您还有另外一个属性:产品的生产者出现在其产品之前(或之后不久)。但是,生产者可能会比其产品早几年出现。 如...

21得票4回答
使用Dataflow和Cloud Composer的区别

我希望能够澄清一下,是 Cloud Dataflow 还是 Cloud Composer 更适合这项工作,但我在 Google 文档中并没有得到明确的答案。 目前,我正在使用 Cloud Dataflow 读取一个非标准的 csv 文件——做一些基本处理——然后将其加载到 BigQuery ...