Spark结构化流与Kafka结合使用时，不遵循startingOffset="earliest"的设置。

Question

Spark结构化流与Kafka结合使用时，不遵循startingOffset="earliest"的设置。

apache-sparkspark-streamingspark-structured-streamingspark-streaming-kafka

9

我已经设置好了Spark Structured Streaming（Spark 2.3.2）来从Kafka（2.0.0）中读取。如果消息在启动Spark流式作业之前进入主题，则无法从主题的开头进行消费。这是否是Spark Stream忽略在初始化运行Spark Stream作业之前生成的Kafka消息的预期行为（即使使用.option("startingOffsets","earliest")）？

重现步骤

在启动流式作业之前，创建名为test的主题（单个broker、单个分区），并向该主题发送消息（本例中有3条消息）。
使用以下命令启动spark-shell：spark-shell --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.2.3.1.0.0-78 --repositories http://repo.hortonworks.com/content/repositories/releases/
执行下面的Spark Scala代码。

// Local
val df = spark.readStream.format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9097")
  .option("failOnDataLoss","false")
  .option("stratingOffsets","earliest")
  .option("subscribe", "test")
  .load()

// Sink Console
val ds = df.writeStream.format("console").queryName("Write to console")
  .trigger(org.apache.spark.sql.streaming.Trigger.ProcessingTime("10 second"))
  .start()

期望输出与实际输出

我期望流从offset=1开始，但它却从offset=3开始读取。你可以看到kafka客户端实际上重置了起始偏移量：2019-06-18 21:22:57 INFO Fetcher:583 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] Resetting offset for partition test-0 to offset 3.

我发现Spark streaming处理我在启动流式作业后生产的消息。

这是Spark streaming预期的行为吗？即使使用.option("startingOffsets","earliest")，它是否忽略在初始运行Spark Stream作业之前生成的Kafka消息？

2019-06-18 21:22:57 INFO  AppInfoParser:109 - Kafka version : 2.0.0.3.1.0.0-78
2019-06-18 21:22:57 INFO  AppInfoParser:110 - Kafka commitId : 0f47b27cde30d177
2019-06-18 21:22:57 INFO  MicroBatchExecution:54 - Starting new streaming query.
2019-06-18 21:22:57 INFO  Metadata:273 - Cluster ID: LqofSZfjTu29BhZm6hsgsg
2019-06-18 21:22:57 INFO  AbstractCoordinator:677 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] Discovered group coordinator localhost:9097 (id: 2147483647 rack: null)
2019-06-18 21:22:57 INFO  ConsumerCoordinator:462 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] Revoking previously assigned partitions []
2019-06-18 21:22:57 INFO  AbstractCoordinator:509 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] (Re-)joining group
2019-06-18 21:22:57 INFO  AbstractCoordinator:473 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] Successfully joined group with generation 1
2019-06-18 21:22:57 INFO  ConsumerCoordinator:280 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] Setting newly assigned partitions [test-0]
2019-06-18 21:22:57 INFO  Fetcher:583 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] Resetting offset for partition test-0 to offset 3.
2019-06-18 21:22:58 INFO  KafkaSource:54 - Initial offsets: {"test":{"0":3}}
2019-06-18 21:22:58 INFO  Fetcher:583 - [Consumer clientId=consumer-2, groupId=spark-kafka-source-e948eee9-3024-4f14-bcb8-75b80d43cbb1--181544888-driver-0] Resetting offset for partition test-0 to offset 3.
2019-06-18 21:22:58 INFO  MicroBatchExecution:54 - Committed offsets for batch 0. Metadata OffsetSeqMetadata(0,1560910978083,Map(spark.sql.shuffle.partitions -> 200, spark.sql.streaming.stateStore.providerClass -> org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider))
2019-06-18 21:22:58 INFO  KafkaSource:54 - GetBatch called with start = None, end = {"test":{"0":3}}

Spark批处理模式

我能够确认批处理模式从头开始读取 - 因此Kafka保留配置没有问题。

val df = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9097")
  .option("subscribe", "test")
  .load()

df.count // Long = 3

- Daniel Ahn

2个回答

1

你可以通过两种方式实现。一种是从kafka加载数据到流式dataframe，另一种是从kafka加载数据到静态dataframe（用于测试）。

我认为你没有看到数据是因为group-id的问题。kafka会将消费者组和偏移量提交到内部主题中。确保每次读取时组名唯一。

以下是两个选项。

选项1：从kafka读取数据到流式dataframe。

// spark streaming with kafka 

import org.apache.spark.sql.streaming.ProcessingTime

val ds1 = spark.readStream.format("kafka")
.option("kafka.bootstrap.servers","app01.app.test.net:9097,app02.app.test.net:9097")
.option("subscribe", "kafka-testing-topic")
.option("kafka.security.protocol", "SASL_PLAINTEXT")
.option("startingOffsets","earliest")
.option("maxOffsetsPerTrigger","6000")
.load()

val ds2 = ds1.select(from_json($"value".cast(StringType), dataSchema).as("data")).select("data.*")
val ds3 = ds2.groupBy("TABLE_NAME").count()
ds3.writeStream
.trigger(ProcessingTime("10 seconds"))
.queryName("query1").format("console")
.outputMode("complete")
.start()
.awaitTermination()

选项2：从Kafka读取数据到静态DataFrame（用于测试，它将从开头加载）


// Subscribe to 1 topic defaults to the earliest and latest offsets
val ds1 = spark.read.format("kafka")
.option("kafka.bootstrap.servers","app01.app.test.net:9097,app02.app.test.net:9097")
.option("subscribe", "kafka-testing-topic")
.option("kafka.security.protocol", "SASL_PLAINTEXT")
.option("spark.streaming.kafka.consumer.cache.enabled","false")
.load()

val ds2 = ds1.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)","topic","partition","offset","timestamp")
val ds3 = ds2.select("value").rdd.map(x => x.toString)
ds3.count()

- SantoshK

2

我认为 group.id 对这个问题没有任何影响。它对 API 用户是透明的。请参考 Spark 文档（https://spark.apache.org/docs/2.3.2/structured-streaming-kafka-integration.html）中有关 group.id 的以下注释： “Kafka 源将自动为每个查询创建一个唯一的组 ID。” - Daniel Ahn

1

此外，如果您没有指定输出模式，则默认使用“Append”。由于您正在执行分组操作（我在示例中没有），因此可以使用“complete”输出模式。 - Daniel Ahn

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Daniel Ahn · Accepted Answer

哈哈，这只是一个简单的笔误：“stratingOffsets”应该是“startingOffsets”。