我正在使用AWS EKS和托管节点组。在过去的几周中,有两次出现了一个节点上的Kubelet崩溃或停止向控制平面报告的情况。在这种情况下,我期望自动扩展组将识别此节点为不健康,并替换它。然而,实际情况并非如此。我通过创建一个节点并手动停止Kubelet来重现了此问题,请参见下面的图像: 我的第一个想法是创建一个事件总线警报,触发一个lambda来处理这个问题,但我在事件总线的服务列表中找不到EKS服务,所以…… 有人知道一个工具或配置可以帮助解决这个问题吗? 明确一下,我正在寻找以下内容: 检测kubelet未连接到控制平面 删除集群中的节点 终止EC2 谢谢!