夜莺-Nightingale
夜莺V7
项目介绍 功能概览
部署升级 部署升级
数据接入 数据接入
告警管理 告警管理
数据查看 数据查看
功能介绍 功能介绍
API FAQ
夜莺V6
项目介绍 架构介绍
快速开始 快速开始
黄埔营
安装部署 安装部署
升级
采集器 采集器
使用手册 使用手册
API API
数据库表结构 数据库表结构
FAQ FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵 第1章:天降奇兵
第2章:探索PromQL 第2章:探索PromQL
第3章:Prometheus告警处理 第3章:Prometheus告警处理
第4章:Exporter详解 第4章:Exporter详解
第5章:数据与可视化 第5章:数据与可视化
第6章:集群与高可用 第6章:集群与高可用
第7章:Prometheus服务发现 第7章:Prometheus服务发现
第8章:监控Kubernetes 第8章:监控Kubernetes
第9章:Prometheus Operator 第9章:Prometheus Operator
参考资料

通知升级(商业版)

功能概述

告警升级通知可以专门解决 “重要告警被忽视” 的问题。当一个告警事件长时间未被处理时,系统会自动将告警升级,使用更高的通知渠道或通知给更高级别的管理人员,确保关键问题得到及时响应。

核心价值

1. 避免告警遗漏

再也不用担心重要告警被忽视,根据升级机制保证有人可以处理。

2. 分级响应机制

不同级别的问题自动匹配不同级别的响应团队,提高处理效率。

3. 减少故障影响时间

通过自动升级机制,确保问题在最短时间内得到适当级别的关注。

典型使用场景

场景一:值班人员响应不及时

情况:凌晨3点,数据库连接数告警,值班人员睡过头了 升级流程

  • 0分钟:发送钉钉通知给值班人员
  • 30分钟后:升级电话通知,电话通知值班人员
  • 60分钟后:电话通知值班经理和技术负责人

场景二:初级告警演变为严重问题

情况:磁盘使用率85%的告警未及时处理,可能导致服务不可用 升级流程

  • 初始:邮件通知
  • 30分钟后:钉钉通知
  • 1小时后:电话通知

配置步骤详解

步骤一:进入通知规则配置

  1. 登录平台,导航至「通知」-「通知规则」
  2. 选择需要配置升级的通知规则,点击「编辑」
  3. 或创建新的通知规则

通知规则列表页面

步骤二:定位升级配置区域

在通知规则编辑页面,找到「升级配置」模块:

通知规则编辑页面,升级配置区块

步骤三:添加升级规则

1. 触发条件设置

持续时间:设置告警持续多长时间后触发升级

  • 建议值:P1级别(15-30分钟)、P2级别(30-60分钟)、P3级别(60-120分钟)
  • 格式:输入数字,选择单位(分钟/小时)

触发状态:选择在什么状态下触发升级

  • 未恢复:告警持续存在未解决
  • 未恢复且未认领:告警既未解决也无人认领(推荐)

触发条件配置

2. 通知媒介配置

通知媒介:选择使用哪种媒介发送告警事件通知,如果已有媒介不满足需求,可以联系管理员创建新的媒介 消息模板:通知内容的模板,可以根据不同的场景使用不同的模板 通知媒介配置

3. 配置筛选条件

适用级别:选择要对哪个等级的告警事件进行通知,只有勾选上的级别,才会被通知。如果三个等级都没有勾选,这个媒介就匹配不到告警事件了,相当于禁用了这个媒介 适用时段:可以限制仅在勾选的星期与时间段内触发升级,不配置表示不做限制 适用标签:仅对满足这些标签条件的告警事件执行升级通知。用于缩小影响范围,不配置表示不做限制。支持下拉选择已有标签键(推荐),也可手动输入 适用属性:仅对同时匹配这些属性的告警启用升级;不配置表示不做限制。多个条件为且关系

筛选条件

步骤四:配置多级升级(高级)

您可以配置多个升级规则,实现多级升级:

  1. 点击「添加通知升级」,添加第一级升级

    • 30分钟未处理,升级到P2,通知运维组长
  2. 再次点击「添加通知升级」,添加第二级升级

    • 60分钟未处理,升级到P1,通知运维经理
  3. 继续添加更多升级级别…

配置示例

示例一:数据库告警升级策略

初始通知:
- 级别:P2
- 渠道:钉钉群
- 对象:DBA团队

第一次升级(30分钟后):
- 级别:升级为P1
- 渠道:钉钉 + 短信
- 对象:DBA团队 + DBA组长
- 重复通知:每15分钟一次,最多3次

第二次升级(60分钟后):
- 级别:保持P1
- 渠道:电话
- 对象:技术经理

最佳实践

1. 合理设置升级时间

原则:级别越高,升级时间越短

  • P1级告警:15-30分钟升级
  • P2级告警:30-60分钟升级
  • P3级告警:60-120分钟升级

2. 渐进式升级策略

建议采用逐步升级

  • 第一级:通知直接负责人
  • 第二级:通知团队负责人
  • 第三级:通知上级管理者

3. 差异化通知渠道

根据紧急程度选择渠道

  • 一般告警:邮件、钉钉
  • 重要告警:短信、企业微信
  • 紧急告警:电话、多渠道并行

注意事项

关于告警状态

  1. 未认领:没有人确认正在处理这个告警
  2. 已认领:有人已经在处理,不会触发升级

常见问题

Q1:如果告警在升级过程中被认领了会怎样?

:一旦告警被认领,升级流程会自动停止,不会继续升级。这鼓励团队成员及时认领和处理告警。

Q2:升级后的告警级别会影响其他规则吗?

:升级只影响通知发送,不会改变告警本身的属性。其他基于告警级别的规则(如告警抑制)仍使用原始级别。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat