将Spark结构化流输出写入Kafka主题

Question

将Spark结构化流输出写入Kafka主题

apache-sparkapache-kafkaspark-structured-streaming

3

我有一个简单的结构化流应用程序，它只是从一个Kafka主题读取数据并写入另一个主题。

SparkConf conf = new SparkConf()
        .setMaster("local[*]")
        .setAppName("test");

SparkSession spark = SparkSession
        .builder()
        .config(conf)
        .getOrCreate();

Dataset<Row> dataset = spark
        .readStream()
        .format("kafka")
        .option("kafka.bootstrap.servers", "localhost:9092")
        .option("subscribe", "start")
        .load();

StreamingQuery query = dataset
        .writeStream()
        .format("kafka")
        .option("kafka.bootstrap.servers", "localhost:9092")
        .option("checkpointLocation", "checkpoint")
        .option("topic", "end")
        .start();

query.awaitTermination(20000);

在主题 start 上有两条要处理的消息。这段代码没有异常，但是没有一条消息最终出现在主题 end 上。这个例子有什么问题？

- cscan

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cscan · Answer 1

问题在于消息已经在流中，而起始偏移量没有设置为“最早”。

Dataset<Row> dataset = spark
        .readStream()
        .format("kafka")
        .option("kafka.bootstrap.servers", "localhost:9092")
        .option("subscribe", start.getTopicName())
        .option("startingOffsets", "earliest")
        .load();