告警聚合(商业版)

本文从原理和数据流的角度,介绍夜莺监控的告警引擎的相关知识,帮助用户理解告警流程,排查告警问题。

功能概述

告警聚合是一项重要的告警降噪功能,通过将相似或相关的告警事件合并为一条通知发送,可以有效减少告警通知的数量,避免告警风暴对运维人员造成的干扰,让故障处理人员能够更专注于真正需要关注的问题。

使用场景

1. 批量服务器故障

当机房网络故障或批量服务器重启时,可能瞬间产生成百上千条告警。通过按照集群告警级别等维度聚合,可以将同一批次的告警合并通知。

2. 微服务链路告警

微服务架构中,一个上游服务故障可能导致下游多个服务连锁告警。通过按照业务组服务名称等维度聚合,可以快速定位问题根源。

3. 同类指标批量告警

比如多台服务器同时出现磁盘空间不足,通过按照告警规则指标名称聚合,可以在一次通知中看到所有受影响的服务器列表。

配置步骤

步骤一:进入通知规则配置

  1. 登录监控平台,进入「告警管理」-「通知规则」页面
  2. 点击「新建通知规则」或编辑已有规则

n3bEbr

步骤二:开启聚合功能

在通知规则配置页面,找到「聚合配置」区块:

  1. 开启聚合开关:打开「开启聚合」选项

BQey3K

步骤三:配置聚合维度

聚合功能支持两种配置方式:

1. 默认维度聚合(推荐初次使用)

这是最简单的配置方式,系统会按照预设的维度自动聚合告警:

  • 告警规则:相同告警规则触发的告警聚合在一起
  • 告警等级:相同严重程度的告警聚合在一起

聚合时间间隔:设置在多长时间内收到的告警会被聚合(建议设置为30-120秒)

SdTNMg

2. 细粒度聚合

如果默认维度不能满足需求,可以使用细粒度聚合进行更精确的控制:

T0REGJ

  1. 点击「添加细粒度聚合」按钮

  2. 设置筛选条件:

    • 标签筛选:例如 service=nginx 表示只对nginx服务的告警进行聚合
    • 属性筛选:例如选择特定的业务组或数据源
  3. 设置聚合维度:

    • 按标签聚合:选择要作为聚合维度的标签键,如 hostregion
    • 按属性聚合:选择系统属性作为聚合维度
  4. 设置聚合时间窗口:在指定时间内的告警会被聚合

步骤四:保存并生效

  1. 完成配置后,点击页面底部的「保存」按钮
  2. 配置会立即生效,新产生的告警将按照配置的规则进行聚合

常见问题

Q1:为什么配置了聚合但告警还是单独发送?

可能原因

  • 告警不满足聚合条件(不同维度或超出时间窗口)
  • 聚合功能未正确开启
  • 告警级别不在配置的适用范围内

Q2:聚合会不会导致告警延迟?

:会有一定延迟,延迟时间等于配置的聚合时间窗口。

Q3:如何查看被聚合的告警详情?

:在聚合通知中会包含告警事件列表链接,点击通知中的链接可以查看完整的告警事件列表。

更新时间 2025-08-18

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云