通知升级(商业版)
功能概述
告警升级通知可以专门解决 “重要告警被忽视” 的问题。当一个告警事件长时间未被处理时,系统会自动将告警升级,使用更高的通知渠道或通知给更高级别的管理人员,确保关键问题得到及时响应。
核心价值
1. 避免告警遗漏
再也不用担心重要告警被忽视,根据升级机制保证有人可以处理。
2. 分级响应机制
不同级别的问题自动匹配不同级别的响应团队,提高处理效率。
3. 减少故障影响时间
通过自动升级机制,确保问题在最短时间内得到适当级别的关注。
典型使用场景
场景一:值班人员响应不及时
情况:凌晨3点,数据库连接数告警,值班人员睡过头了 升级流程:
- 0分钟:发送钉钉通知给值班人员
- 30分钟后:升级电话通知,电话通知值班人员
- 60分钟后:电话通知值班经理和技术负责人
场景二:初级告警演变为严重问题
情况:磁盘使用率85%的告警未及时处理,可能导致服务不可用 升级流程:
- 初始:邮件通知
- 30分钟后:钉钉通知
- 1小时后:电话通知
配置步骤详解
步骤一:进入通知规则配置
- 登录平台,导航至「通知」-「通知规则」
- 选择需要配置升级的通知规则,点击「编辑」
- 或创建新的通知规则
步骤二:定位升级配置区域
在通知规则编辑页面,找到「升级配置」模块:
步骤三:添加升级规则
1. 触发条件设置
持续时间:设置告警持续多长时间后触发升级
- 建议值:P1级别(15-30分钟)、P2级别(30-60分钟)、P3级别(60-120分钟)
- 格式:输入数字,选择单位(分钟/小时)
触发状态:选择在什么状态下触发升级
- 未恢复:告警持续存在未解决
- 未恢复且未认领:告警既未解决也无人认领(推荐)
2. 通知媒介配置
通知媒介:选择使用哪种媒介发送告警事件通知,如果已有媒介不满足需求,可以联系管理员创建新的媒介
消息模板:通知内容的模板,可以根据不同的场景使用不同的模板
3. 配置筛选条件
适用级别:选择要对哪个等级的告警事件进行通知,只有勾选上的级别,才会被通知。如果三个等级都没有勾选,这个媒介就匹配不到告警事件了,相当于禁用了这个媒介 适用时段:可以限制仅在勾选的星期与时间段内触发升级,不配置表示不做限制 适用标签:仅对满足这些标签条件的告警事件执行升级通知。用于缩小影响范围,不配置表示不做限制。支持下拉选择已有标签键(推荐),也可手动输入 适用属性:仅对同时匹配这些属性的告警启用升级;不配置表示不做限制。多个条件为且关系
步骤四:配置多级升级(高级)
您可以配置多个升级规则,实现多级升级:
-
点击「添加通知升级」,添加第一级升级
- 30分钟未处理,升级到P2,通知运维组长
-
再次点击「添加通知升级」,添加第二级升级
- 60分钟未处理,升级到P1,通知运维经理
-
继续添加更多升级级别…
配置示例
示例一:数据库告警升级策略
初始通知:
- 级别:P2
- 渠道:钉钉群
- 对象:DBA团队
第一次升级(30分钟后):
- 级别:升级为P1
- 渠道:钉钉 + 短信
- 对象:DBA团队 + DBA组长
- 重复通知:每15分钟一次,最多3次
第二次升级(60分钟后):
- 级别:保持P1
- 渠道:电话
- 对象:技术经理
最佳实践
1. 合理设置升级时间
原则:级别越高,升级时间越短
- P1级告警:15-30分钟升级
- P2级告警:30-60分钟升级
- P3级告警:60-120分钟升级
2. 渐进式升级策略
建议采用逐步升级:
- 第一级:通知直接负责人
- 第二级:通知团队负责人
- 第三级:通知上级管理者
3. 差异化通知渠道
根据紧急程度选择渠道:
- 一般告警:邮件、钉钉
- 重要告警:短信、企业微信
- 紧急告警:电话、多渠道并行
注意事项
关于告警状态
- 未认领:没有人确认正在处理这个告警
- 已认领:有人已经在处理,不会触发升级
常见问题
Q1:如果告警在升级过程中被认领了会怎样?
答:一旦告警被认领,升级流程会自动停止,不会继续升级。这鼓励团队成员及时认领和处理告警。
Q2:升级后的告警级别会影响其他规则吗?
答:升级只影响通知发送,不会改变告警本身的属性。其他基于告警级别的规则(如告警抑制)仍使用原始级别。