夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

告警聚合(商业版)

功能概述

告警聚合是一项重要的告警降噪功能,通过将相似或相关的告警事件合并为一条通知发送,可以有效减少告警通知的数量,避免告警风暴对运维人员造成的干扰,让故障处理人员能够更专注于真正需要关注的问题。

使用场景

1. 批量服务器故障

当机房网络故障或批量服务器重启时,可能瞬间产生成百上千条告警。通过按照集群告警级别等维度聚合,可以将同一批次的告警合并通知。

2. 微服务链路告警

微服务架构中,一个上游服务故障可能导致下游多个服务连锁告警。通过按照业务组服务名称等维度聚合,可以快速定位问题根源。

3. 同类指标批量告警

比如多台服务器同时出现磁盘空间不足,通过按照告警规则指标名称聚合,可以在一次通知中看到所有受影响的服务器列表。

配置步骤

步骤一:进入通知规则配置

  1. 登录监控平台,进入「告警管理」-「通知规则」页面
  2. 点击「新建通知规则」或编辑已有规则

n3bEbr

步骤二:开启聚合功能

在通知规则配置页面,找到「聚合配置」区块:

  1. 开启聚合开关:打开「开启聚合」选项

BQey3K

步骤三:配置聚合维度

聚合功能支持两种配置方式:

1. 默认维度聚合(推荐初次使用)

这是最简单的配置方式,系统会按照预设的维度自动聚合告警:

  • 告警规则:相同告警规则触发的告警聚合在一起
  • 告警等级:相同严重程度的告警聚合在一起

聚合时间间隔:设置在多长时间内收到的告警会被聚合(建议设置为30-120秒)

SdTNMg

2. 细粒度聚合(高级功能)

如果默认维度不能满足需求,可以使用细粒度聚合进行更精确的控制:

T0REGJ

  1. 点击「添加细粒度聚合」按钮

  2. 设置筛选条件(可选):

    • 标签筛选:例如 service=nginx 表示只对nginx服务的告警进行聚合
    • 属性筛选:例如选择特定的业务组或数据源
  3. 设置聚合维度:

    • 按标签聚合:选择要作为聚合维度的标签键,如 hostregion
    • 按属性聚合:选择系统属性作为聚合维度
  4. 设置聚合时间窗口:在指定时间内的告警会被聚合

步骤四:保存并生效

  1. 完成配置后,点击页面底部的「保存」按钮
  2. 配置会立即生效,新产生的告警将按照配置的规则进行聚合

常见问题

Q1:为什么配置了聚合但告警还是单独发送?

可能原因

  • 告警不满足聚合条件(不同维度或超出时间窗口)
  • 聚合功能未正确开启
  • 告警级别不在配置的适用范围内

Q2:聚合会不会导致告警延迟?

:会有一定延迟,延迟时间等于配置的聚合时间窗口。

Q3:如何查看被聚合的告警详情?

:在聚合通知中会包含告警事件列表链接,点击通知中的链接可以查看完整的告警事件列表。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat