Spark结构化流：多个数据接收端

Question

Spark结构化流：多个数据接收端

12

我们正在使用结构化流从Kafka中消费数据，并将处理后的数据集写入S3。

我们还希望将处理后的数据写入Kafka，是否可以从同一流式查询中执行？（Spark版本为2.1.1）
在日志中，我看到了流式查询进度输出以及来自日志的示例持续时间JSON，有人可以更清楚地解释addBatch和getBatch之间的区别吗？
TriggerExecution - 是获取数据并写入接收器所需的时间吗？

"durationMs" : {
    "addBatch" : 2263426,
    "getBatch" : 12,
    "getOffset" : 273,
   "queryPlanning" : 13,
    "triggerExecution" : 2264288,
    "walCommit" : 552
},

该段文本是HTML代码，其中包含一个结束列表项标签（）和一个结束有序列表标签（）。我没有进行任何翻译或修改，只是将其保留为原始HTML代码。

- user2221654

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- zsxwing · Accepted Answer

是的。

在 Spark 2.1.1 中，您可以使用 writeStream.foreach 将数据写入 Kafka。此博客中有一个示例：https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.html

或者您可以使用 Spark 2.2.0，它新增了 Kafka sink，支持官方写入 Kafka。
getBatch 用于衡量从源创建 DataFrame 所需的时间。这通常非常快速。addBatch 用于衡量运行 DataFrame 在 sink 中所需的时间。
triggerExecution 表示运行触发器执行所需的时间，通常几乎与 getOffset + getBatch + addBatch 相同。