如何配置第一张值班表和升级策略

在 Flashduty 中配置第一张值班表的最短路径:先选试点协作空间,创建主备值班表,再用 Critical 分派策略验证通知、认领、升级和关闭链路。

作者 快猫技术

Flashduty 值班表和升级策略配置流程

答案先说

第一次配置 On-call,不要先接入更多告警源。更短的路径是:

  1. 选一个边界清楚的协作空间。
  2. 创建一张只覆盖这个空间的值班表。
  3. 先配置主值班和备值班。
  4. 用一条 Critical 分派策略验证通知、认领、升级和关闭。
  5. 保留兜底策略,防止标签或路由错误导致告警没人接。

目标不是一次做完所有排班规则,而是让一条真实告警进入 Flashduty 后,能自动找到当前值班人;无人响应时,能按规则升级给备值班、服务 Owner 或团队负责人。

值班表和分派策略的区别

值班表回答一个问题:

此刻谁在值班?

分派策略回答另一个问题:

什么故障,在什么时间,通过什么渠道,通知给谁;超时后升级给谁?

只建值班表,故障不会自动按你预期触达。只配置固定个人通知,生产告警会长期绑定某个人,遇到请假、离职、换岗或睡着时风险很高。

值班表和分派策略的职责区别

最小配置清单

配置项 建议做法 为什么
协作空间 先选一个服务或团队 边界越清楚,分派越容易验证
值班表 命名包含责任边界 避免后续扩张成“所有告警值班表”
值班角色 先做主值班和备值班 让第一响应和兜底责任分开
通知渠道 Critical 不只依赖群聊 群聊负责协作,单聊负责责任
分派策略 从 Critical 告警开始 最能验证 On-call 的核心价值
兜底策略 放在最后一条 暴露标签缺失、路由错误和规则遗漏

推荐配置步骤

第一步,选择试点空间。优先选有明确负责人、有真实告警、范围不大的空间,例如支付系统、核心交易、基础设施 SRE、数据库 DBA。

第二步,创建值班表。名称不要写成“生产值班表”这类宽泛名字,建议写成“支付 SRE 值班表”“DBA 主备值班表”“订单服务工作日值班表”。

第三步,先用简单轮换。7x24 团队可以按周轮换,工作日响应团队可以只配置工作日白班。不要把实际没人响应的夜间时段伪装成 7x24。

第四步,确认每个人真的能收到通知。至少检查手机号、邮箱、App 推送、系统通知权限、飞书/钉钉/企业微信绑定和个人通知偏好。

第五步,在协作空间里配置第一条 Critical 分派策略。

触发条件:severity = Critical
通知对象:支付 SRE 值班表的主值班
通知方式:单聊,遵循个人偏好
群聊同步:支付故障响应群
升级条件:5 分钟未关闭且未认领,升级给备值班

升级条件怎么选

升级条件不要只用一种。第一次主备升级可以用三段式:

环节 通知对象 升级条件 判断重点
第 1 环节 主值班 5 分钟未关闭且未认领 有没有人接
第 2 环节 备值班 15 分钟未关闭 有没有实质恢复
第 3 环节 服务 Owner 或团队负责人 30 分钟未关闭 是否需要专家或管理介入

只看“未关闭”,可能让已认领、正在处理的故障过早升级。只看“未认领”,可能漏掉已经认领但长期未恢复的故障。

主备值班升级阶梯

通知强度要分级

不同级别告警不要用同一种触达方式。

告警级别 推荐通知方式 是否升级
Critical App 推送、IM 单聊,必要时语音或短信 应该升级
Warning App 推送或 IM 单聊,也可同步群聊 视业务而定
Info 群聊、邮件或仅记录 通常不升级

如果 Warning 多到需要高频重复通知,根因通常不是通知不够响,而是告警质量差。先治理告警聚合、抑制、静默和规则质量。

上线验收清单

用一条从告警源发出的真实测试告警验收,不要只看控制台配置。

故障是否进入正确协作空间
故障级别是否正确
分派策略是否命中预期规则
当前主值班是否收到单聊通知
群聊是否收到同步消息
主值班是否能认领故障
认领动作是否写入时间线
未认领时是否按时升级给备值班
继续未关闭时是否升级给 Owner 或负责人
故障恢复后是否能关闭或进入正确状态

测试升级时,不要立刻认领。让故障保持未认领,观察是否按时升级;再认领但不关闭,观察“未关闭”升级是否触发。

常见问题

有值班表,为什么没人收到通知?

先看协作空间的分派策略是否引用了这张值班表,再看故障时间线里是否有策略命中、通知发送或通知失败记录。

主备都收到了,为什么还是没人认领?

通常是责任设计问题。第一环节只通知主值班,超时未关闭且未认领再升级备值班。群聊可以同步,但不能替代个人分派。

测试环境告警半夜打电话怎么办?

分派策略里必须区分 envseverity。测试环境 Warning 通常只进群或低强度通知,不应该走生产 Critical 升级链路。

第一张值班表要做多复杂?

不要复杂。第一张表只要跑通“告警进入系统、责任到人、超时升级、时间线可复盘”这个闭环,就已经有价值。

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云