顶级 SaaS 公司 Datadog 是如何做 OnCall 的

Datadog 的 OnCall 实践强调轮班公平、备份升级、工具支撑和经理参与。本文从值班表设计、值班职责、培训资料、升级策略和管理者反馈几个角度,总结 SaaS 团队建设 OnCall 机制时可以借鉴的做法。

作者 快猫运营团队

导读

Datadog 是监控和可观测性领域的头部 SaaS 公司,服务稳定性和客户可用性要求很高。它的 OnCall 轮班方式值得关注,不是因为“值班表复杂”,而是因为它把人、工具、升级路径和管理者责任放在同一套机制里设计。

这篇文章围绕 Datadog 公开分享的 OnCall 轮班实践,回答三个问题:

  • 为什么没有轮班机制会持续伤害稳定性和团队状态?
  • 一个可执行的 OnCall 值班表应该包含哪些设计要素?
  • 工具、备份人员和直接经理分别解决什么问题?

没有值班轮班机制的坏处

很多公司早期没有正式的值班表,故障来了就找最熟悉系统、最愿意兜底、最容易被联系到的人。短期看问题解决了,长期看会积累三个风险。

第一,工作量会集中到少数人身上。长期夜间被电话叫醒的人会持续疲惫,没有足够时间做架构改造、自动化、告警治理等更高价值的工作。

第二,疲惫会反过来影响稳定性。值班人精神紧绷、上下文切换频繁,处理告警时更容易漏看信息、误判优先级,甚至把小故障处理成大故障。

第三,团队会失去边界感。没有明确轮班、备份和升级机制时,个人生活和工作长期混在一起,离职风险会上升,团队招聘和知识传承也会受影响。

其实吧,不重视值班 OnCall,本质就是不重视稳定性。

Datadog 的 OnCall 轮班方式

Datadog 的轮班实践里,值班表不是简单地把人名排成日历,而是同时考虑工作量、假期、临时调班和响应质量。

几个设计点比较关键:

  • 值班组规模要足够支撑轮换。一般 6-8 个人组成一个值班组,轮流值班;如果人不够,至少也要保证 3-4 个人组成值班表。
  • 单次值班时长要可承受。每次值班一般是 8-12 小时,避免一个人长时间处于紧张状态。
  • 频率要平衡。过于频繁会造成倦怠;长期不值班的人又缺少改进告警规则、仪表盘和 SOP 的直接动力。
  • 值班期间要减少并行任务。值班工程师主要处理值班相关工作,比如接收告警、巡检、维护告警规则、整理仪表盘和 SOP,不适合同时承担高强度新功能开发。

上图是 Datadog 的 OnCall 值班表,确实挺复杂。实际上,国内用户的值班需求往往更驳杂,假期、临时调班、跨团队升级和值班补偿都需要提前设计。

为值班人员提供支持

好的 OnCall 机制不能只要求工程师“随时在线”,还要给值班人足够的支撑。

培训和资料是第一层支撑。新人直接上岗值班,很容易在告警风暴中不知道先看什么、找谁确认、哪些动作有风险。值班前至少要准备基本培训、常见故障 SOP、服务负责人信息和升级路径。

工具平台是第二层支撑。Datadog 自然使用自己的 OnCall 工具,国内用户也可以使用 Flashduty。这类平台要解决的不是“发一条通知”,而是在一个地方完成值班、调班、告警接收、响应、认领、升级和分派,并通过手机 App 或 IM 触达值班人。

备份机制是第三层支撑。每次值班最好有主值班人和备份值班人。主值班人没有响应时,系统自动通知备份人员;仍然无法响应时,再升级到直线经理。这样做可以避免单点依赖,也能让升级路径在事故前就被设计好。

直接经理参与

Datadog 会让直接经理参与值班。这个安排至少有两个价值。

第一,经理参与能给团队一个明确态度:OnCall 不是一线工程师单方面承担的脏活累活,而是稳定性体系的一部分。

第二,经理需要感受到一线的真实摩擦。只有亲自经历误报、通知噪音、文档缺失、升级不清晰、工具不好用,管理者才会更有动力优化 OnCall 流程和工具。

国内很多团队的问题恰恰相反:经理做了管理以后逐渐远离一线,对告警质量、排障链路和值班负担失去体感。时间长了,OnCall 流程会越来越像“制度”,但越来越不像“能让故障更快恢复的机制”。

一套可借鉴的 OnCall 建设清单

如果要从 Datadog 的实践里抽取可落地的做法,可以先检查这几项:

机制 要解决的问题 落地要点
值班轮换 避免少数人长期兜底 控制组内人数、单次时长和值班频率
值班职责 避免值班时被新需求打断 值班期间优先处理告警、巡检、SOP、规则和仪表盘
培训资料 避免新人直接暴露在事故现场 准备 SOP、联系人、升级路径和常见故障处理步骤
工具平台 避免通知、认领、升级分散在多个系统 统一接收告警,支持响应、认领、升级、分派和调班
主备升级 避免单人失联造成事故扩大 主值班、备份人员、直线经理逐级升级
经理参与 避免管理层脱离一线 让流程改进来自真实值班体验

FAQ

Q1:OnCall 是不是只适合大公司? 不是。小团队更需要避免“永远找同一个人”。即使人数不足,也应该至少明确主备、轮换和升级路径。

Q2:值班期间为什么不建议开发新功能? 值班的核心职责是响应和稳定性维护。高强度功能开发会占用注意力,告警来时容易漏响应或误处理。

Q3:为什么经理要参与 OnCall? 因为 OnCall 的很多问题不是工程师个人能解决的,例如人力安排、工具投入、告警治理优先级和跨团队升级。经理只有理解一线痛点,才可能把这些问题推进到组织层面。

小结

Datadog 的 OnCall 实践给出的关键启发是:值班机制不是排班软件的问题,而是稳定性治理问题。团队需要用轮换降低疲劳,用工具统一响应,用主备升级降低单点风险,用经理参与推动流程持续改进。

最后推荐一下自家的 OnCall 产品,欢迎大家免费注册试用 👇

https://www.flashduty.com

Flashduty

参考资料:

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

标签 OnCall
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云