如何为Spark结构化流应用程序获取Kafka消费者滞后？

Question

如何为Spark结构化流应用程序获取Kafka消费者滞后？

apache-sparkapache-kafkaspark-structured-streaming

3

我正在为我的Spark结构化流应用程序构建监控，并需要获取Spark应用程序消费的某个主题的消费者延迟。我相信Spark驱动程序必须知道执行器的所有元数据，因此也知道这个延迟。我在任何现有的Spark文档或资源中都没有找到获取这些指标的方法。我查看了streaminQueryListener接口，但它的能力也有限，因为我们只能从其中获取每个查询的指标。

- Jitender Yadav

2个回答

1

这里有一种方法可以获取执行节点上请求的信息。对于每条消息，都会获取信息，您可以根据自己的需求（计数、时间等）来实现减少请求量的方式。

下面我将监控信息发送到另一个Kafka主题。

我在每个流式消息批处理中频繁地打开Kafka消费者连接（以获取关于最大偏移量的信息）。也许这对您来说是不可接受的。

final JavaInputDStream<ConsumerRecord<String, byte[]>> stream = KafkaUtils.createDirectStream(jssc, LocationStrategies.PreferConsistent(),
        ConsumerStrategies.<String, byte[]>Subscribe(topics, kafkaParams));


JavaPairDStream<String, Income> streamPair = stream
.mapPartitionsToPair(new PairFlatMapFunction<Iterator<ConsumerRecord<String, byte[]>>, String, Income>() {

    private Map<String, Object> getProps() {
        Map<String, Object> kafkaParams2 = new HashMap<>();
        kafkaParams2.put("bootstrap.servers", ApiConsts.BOOTSTRAP_SERVERS);
        kafkaParams2.put("key.deserializer", StringDeserializer.class);
        kafkaParams2.put("value.deserializer", ByteArrayDeserializer.class);
        kafkaParams2.put("group.id", "ta_calc_spark" + UUID.randomUUID().toString());
        kafkaParams2.put("auto.offset.reset", "latest");
        kafkaParams2.put("enable.auto.commit", false);
        kafkaParams2.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 30);
        kafkaParams2.put(ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG, 1000);
        return kafkaParams2;
    }

    @Override
    public Iterator<Tuple2<String, Income>> call(Iterator<ConsumerRecord<String, byte[]>> t) throws Exception {
        KafkaConsumer consumer = new KafkaConsumer<>(getProps());

        ArrayList<TopicPartition> partitions0 = new ArrayList<TopicPartition>();
        IntStream.range(0, consumer.partitionsFor(ApiConsts.TOPIC_TA_CALC_SPARK_TASK).size())
                .forEach(i -> partitions0.add(new TopicPartition(ApiConsts.TOPIC_TA_CALC_SPARK_TASK, i)));
        consumer.assign(partitions0);
        KafkaProducer producerMonitoring = getKafkaProducer();

        List<Tuple2<String, Income>> result = new ArrayList<Tuple2<String, Income>>();
        try {
            t.forEachRemaining(t2 -> {
                // business logic - message handling

                try {
                    Set<TopicPartition> partitions = new HashSet<TopicPartition>();
                    TopicPartition actualTopicPartition = new TopicPartition(ApiConsts.TOPIC_TA_CALC_SPARK_TASK, t2.partition());
                    partitions.add(actualTopicPartition);
                    Long actualEndOffset = (Long) consumer.endOffsets(partitions).get(actualTopicPartition);
                    long actualPosition = consumer.position(actualTopicPartition);
                    String monitorValue = String.format(
                            "diff: %s   (partition:%s; actualEndOffsetStreaming:%s; actualEndOffset:%s; actualPosition=%s)",
                            actualEndOffset - actualPosition, t2.partition(), t2.offset(), actualEndOffset, actualPosition);
                    ProducerRecord<String, String> pRecord = new ProducerRecord<String, String>(ApiConsts.TOPIC_TA_CALC_SPARK_TEMP_RESULT,
                            UUID.randomUUID().toString(), monitorValue);
                    producerMonitoring.send(pRecord);
                } catch (Exception ex) {
                    log.error("################# mapPartitionsToPair.call() ERROR", ex);
                    ex.printStackTrace();
                }
            });
        } finally {
            producerMonitoring.close();
            consumer.close();
        }
        return result.iterator();
    }
});

输出：

Consumer Record:(f45cd24b-6232-45b2-b8f2-814753ae89bf, diff: 0   (partition:4; actualEndOffsetStreaming:1177; actualEndOffset:1178; actualPosition=1178), 2, 109)
Consumer Record:(3ec4f576-1fff-4c91-885f-fc709f7f4531, diff: 0   (partition:4; actualEndOffsetStreaming:1176; actualEndOffset:1178; actualPosition=1178), 3, 105)

- StanislavKo

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Michael Heil · Accepted Answer

追踪Structured Streaming作业的消费者滞后的难点在于Structured Streaming不会向Kafka提交任何偏移量（有关详细信息，请参见此处）。因此，Kafka不知道Structured Streaming作业的实际进度。

另一方面，Spark无法了解当前位于Kafka主题中的消息/偏移量的数量。

为了监视消费者滞后，需要将这些信息汇集起来：

- 在TopicPartition中连续请求最新的偏移量 - 连续检查Structured Streaming应用程序处理的当前偏移量

例如，您可以创建一个Kafka AdminClient并在StreamingQueryListener的onQueryProgress调用期间从Kafka获取所需的信息。在该方法中，您需要将最新事件的提及偏移量与Kafka中实际可用的最高偏移量进行比较。