亚马逊云监控警报未触发。

22

我已经配置了一个 CloudWatch 告警:

阈值: "大于0",持续1个周期,

周期: 1分钟,

统计值: 总和

该告警是在 AWS SQS NumberOfMessagesSent 上配置的。队列为空并且没有消息被发布到该队列中。我手动发送了一条消息。我可以看到指标有所上升,但告警状态仍为“OK”。我有些困惑,为什么尽管满足触发条件,但这个告警状态不会改变。


你的闹钟有关联的操作吗?你是什么时候查看的?它的工作方式是在下一分钟内转到ALARM,然后返回OK。因此,如果你在错误的时间查看或者在报告的最后一分钟查看,可能会出现你没有观察到它(但它确实发生了)。 - Mircea
我已经为每个状态-ALARM,OK,INSUFFICIENT-STATE附加了一个操作。该操作是发送电子邮件,但我也没有收到任何电子邮件。 - Juhi Kulshreshtha
1
@JuhiKulshreshtha - 遇到了同样的问题。你找到解决方案了吗?如果是,请分享一下。 - Ankur Piyush
3个回答

14

在AWS支持的帮助下,我刚刚解决了这个问题。您需要将警报的周期设置为约15分钟。这与SQS将事件时间戳标记为它推送到CloudWatch的方式有关。

不要担心,将周期设置为更大的数字不会影响您接收警报的速度。它仍然每5分钟从SQS获取数据。


1
虽然非常不直观,但我可以确认这是有效的。 - Eric Eijkelenboom
1
我也可以确认。 - jecxjo
1
今天我也遇到了同样的问题。对于其他人发现这个问题的人,上面的答案现在可以通过使用已添加的“M个中的N个数据点”功能来进行改进(如果需要)。您可以设置5分钟的时间段和“2个数据点中的1个”,从而在10分钟内获得评估期。如上所述,您的警报仍将在发送到队列的消息后约5分钟触发,但由于评估期为10而不是15,因此它将比15分钟周期更早地重置为OK状态,大约提前5分钟。 - jstill
“将闹钟的时间设置为约15分钟”是什么意思?这是否意味着闹钟会每隔15分钟检查一次指标,因此缩放只能在至少15分钟的间隔内进行? 另外,当我们将周期设置为15分钟时,我们需要调整指标值吗(例如:NumberOfMessagesSent的值将是我们用于5分钟的值的3倍)? - Arcobaleno
就我所知,我在使用“AWS / ApiGateway”“5xx”错误指标时遇到了这个问题。 当我将时间段更改为15分钟时它便奏效了。当我将时间段更改为5分钟并根据@jstill的评论使用“2个中的1个”Datapoints进行警报时,它也起作用了。 - Mike Vosseller

0
可能是时间间隔设置少于300秒。免费的CloudWatch每5分钟检查一次,所以如果您将警报设置为少于5分钟,有时会出现INSUFFICIENT_DATA。

0
有时候他们会遇到所谓的“延迟指标传递”,这在警报周期短,如1分钟左右时更为常见。
当延迟时间戳到达时,对于警报来说已经太晚了,但对于图表来说还不算晚,因为它最终会完美地打印出来而没有间隙。
尝试使用不是1/1而是3/2或3/1的评估周期和数据点进行警报,可能会很好地解决问题。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接