告警降噪解析与实践

快猫星云 2024-09-05 00:00:08

什么是告警降噪

告警降噪是指在运维监控中,通过聚合、抑制、收敛等策略减少无用或重复告警的干扰,避免告警泛滥,确保运维人员只接收到关键信息。降噪可以减少对值班人员的打扰,同时确保他们能及时处理真正重要的告警事件。

告警降噪原理

为什么要做告警降噪

随着企业的业务系统逐渐复杂化和规模扩大,监控系统成为运维保障中不可或缺的一部分。然而,伴随着监控的深入,系统告警的数量急剧增加,特别是在突发故障或性能波动时,告警信息可能会呈现“告警风暴”现象:短时间内产生大量的告警通知,运维研发团队容易被信息淹没,导致关键告警被忽略或处理延迟。为了解决这一问题,告警降噪技术应运而生,帮助运维人员过滤、整合告警信息,减少无效通知,提高问题处理效率。

告警降噪适用场景

  • 告警风暴:同一问题多次触发告警或有大量告警在短时间内触发(如网络或服务故障),通过降噪可以聚合这类告警,避免将大量告警通知同时发送给处理人员,减轻他们的压力 。
  • 告警抑制:某些监控场景下,会有不同优先级的告警。例如同时触发了高优先级和低优先级告警,可以通过降噪策略只发送高优先级告警,避免不必要的干扰 。
  • 预期内告警:在系统定期维护或变更期间,可能会产生大量预期内的告警。如果不采取有效措施,这些已知的告警也会被发送,尽管它们并不需要实际处理,所以很有必要对这类告警做降噪处理。

告警降噪产品选型

  • PagerDuty:作为行业先驱,PagerDuty以智能调度算法和丰富的集成生态著称,尤其在自动化响应、大规模企业级部署方面表现出色。
  • FlashDuty:由夜莺团队自主研发的统一告警On-Call平台,更注重本地化服务与适应中国企业,在统一告警分发、告警聚合、智能分派等方面有着出色的表现。

FlashDuty 的降噪实践

案例一

某头部智驾芯片制造商在车机系统监控中需要对各个硬件进行分类监控,每类硬件可能有不同的告警策略,例如CPU负载类的监控就有 CPU整体使用率、CPU单核使用率、CPU steal 过高、CPU温度、风扇转速等指标。在没有对告警降噪时,经常会出现由于某一个问题,而引发大面积的告警产生,同时也会向工作人员发送大量的通知,长期以来让工作人员备受折磨,且慢慢消耗了积极性,从而导致了经常出现漏掉关键告警的情况。为了避免这种情况发生, FlashDuty 为其提供了告警聚合的解决方案,将相同特征的事件合并为同一事件,既能解决不忽略告警又能解决告警风暴的问题。

未配置降噪时:每个告警都是独立故障,且基本都是同种类型,每发生一个就向工作人员发送一次。

未配置告警降噪的效果

降噪效果:将同类型告警聚合为一个故障,且只向工作人员发送一次通知(下图中关联告警指的是将33个相似告警聚合为一个故障)。

告警降噪之后的效果

案例二

某知名餐饮连锁企业的特点是门店众多,全国有上千家门店,但是中心化业务出现告警时可能会影响大部分门店。以往的情况是只要出现这种问题,在运维人员已经收到告警并在处理的情况下,监控系统还是会不断地向运维人员发送后续影响门店的告警,让运维人员不能专心处理,还要时刻关注着是否有其他告警。所以为了解决这一问题,FlashDuty 向其提供了告警聚合、静默策略等手段来避免类似情况发生。

降噪效果:通过几天的观察,降噪效果突出明显(降噪比83.14% ,即应发100条件通知,通过降噪实际只发了17条通知)。

告警降噪-降噪比

总结

过多的告警对处理人员是干扰,如果 OnCall 人员已经开始排查了,重复发送同类告警,就是干扰,告警降噪就是解决这个问题的,是提升工程师幸福感的有效工具。不夸张地说,老板为员工买个 100 多块钱的 FlashDuty 账号,远比每个月花 200 多买个零食给员工的体验要好,而且使用 FlashDuty 之后还节省了电话、短信告警费用,一举多得。了解更多 FlashDuty 产品信息

快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
开源版
Flashcat
Flashduty