告警聚合(商业版)
本文从原理和数据流的角度,介绍夜莺监控的告警引擎的相关知识,帮助用户理解告警流程,排查告警问题。
功能概述
告警聚合是一项重要的告警降噪功能,通过将相似或相关的告警事件合并为一条通知发送,可以有效减少告警通知的数量,避免告警风暴对运维人员造成的干扰,让故障处理人员能够更专注于真正需要关注的问题。
使用场景
1. 批量服务器故障
当机房网络故障或批量服务器重启时,可能瞬间产生成百上千条告警。通过按照集群、告警级别等维度聚合,可以将同一批次的告警合并通知。
2. 微服务链路告警
微服务架构中,一个上游服务故障可能导致下游多个服务连锁告警。通过按照业务组、服务名称等维度聚合,可以快速定位问题根源。
3. 同类指标批量告警
比如多台服务器同时出现磁盘空间不足,通过按照告警规则、指标名称聚合,可以在一次通知中看到所有受影响的服务器列表。
配置步骤
步骤一:进入通知规则配置
- 登录监控平台,进入「告警管理」-「通知规则」页面
- 点击「新建通知规则」或编辑已有规则

步骤二:开启聚合功能
在通知规则配置页面,找到「聚合配置」区块:
- 开启聚合开关:打开「开启聚合」选项

步骤三:配置聚合维度
聚合功能支持两种配置方式:
1. 默认维度聚合(推荐初次使用)
这是最简单的配置方式,系统会按照预设的维度自动聚合告警:
- 告警规则:相同告警规则触发的告警聚合在一起
- 告警等级:相同严重程度的告警聚合在一起
聚合时间间隔:设置在多长时间内收到的告警会被聚合(建议设置为30-120秒)

2. 细粒度聚合
如果默认维度不能满足需求,可以使用细粒度聚合进行更精确的控制:

-
点击「添加细粒度聚合」按钮
-
设置筛选条件:
- 标签筛选:例如
service=nginx表示只对nginx服务的告警进行聚合 - 属性筛选:例如选择特定的业务组或数据源
- 标签筛选:例如
-
设置聚合维度:
- 按标签聚合:选择要作为聚合维度的标签键,如
host、region - 按属性聚合:选择系统属性作为聚合维度
- 按标签聚合:选择要作为聚合维度的标签键,如
-
设置聚合时间窗口:在指定时间内的告警会被聚合
步骤四:保存并生效
- 完成配置后,点击页面底部的「保存」按钮
- 配置会立即生效,新产生的告警将按照配置的规则进行聚合
常见问题
Q1:为什么配置了聚合但告警还是单独发送?
可能原因:
- 告警不满足聚合条件(不同维度或超出时间窗口)
- 聚合功能未正确开启
- 告警级别不在配置的适用范围内
Q2:聚合会不会导致告警延迟?
答:会有一定延迟,延迟时间等于配置的聚合时间窗口。
Q3:如何查看被聚合的告警详情?
答:在聚合通知中会包含告警事件列表链接,点击通知中的链接可以查看完整的告警事件列表。