Kafka 消费者意外重新平衡

Question

9

我们发现Java Kafka消费者出现了意外的重新平衡，如下所述。这些问题是否有人熟悉？有没有关于API或调试技术的提示来确定重新平衡的原因？

我们希望分区不会重新平衡而没有任何原因或故障。

有时候poll()会卡住(超过超时时间)，我们使用wakeup()和close()，然后创建新的消费者。有时协调器心跳线程在消费者关闭后仍然运行(我们见过成千上万次)。时间似乎与重新平衡无关，因此重新平衡似乎是一个单独的问题，但也许心跳正在遇到未记录的网络问题。

我们使用ConsumerRebalanceListener来记录和处理某些重新平衡，但Kafka API似乎不会公开有关重新平衡原因的数据。

重新平衡是间歇性的，很难复现。它们发生在每秒10,000到80,000个消息的速率下。我们在日志中没有看到明显的错误。

我们的读取循环非常简单 - 基本上是“当运行时，使用超时和错误处理进行轮询，然后将接收到的消息加入队列”。

人们问了一些相关的好问题，但答案并没有帮助我们：

配置：

- adev

我们也遇到了同样的问题。Kafka 0.10.0.1，每个主题有12个分区。每个主题都有不同的CG。有时候一些CG会重新平衡超过5分钟。在进程重新启动后，有些CG需要最多10分钟才能开始消费。自从两个月前以来一直没有找到任何解决方案，也没有得到任何帮助。 - Shades88

重平衡速度快吗？我问这个问题是因为我曾经因日志清理问题而遇到了组协调器的问题。你考虑过升级到此次小版本（0.10.2.3）的最新版本吗？ - Lior Chaga

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gavin Gu · Answer 1

检查gc日志，确保没有频繁的full gc，这会阻止心跳线程的工作。