顶级 SaaS 公司 Datadog 是如何做 OnCall 的

快猫运营团队 2025-04-29 09:07:38

导读

Datadog 是监控、可观测性领域的头部玩家,市值几百亿美金,拥有众多 SaaS 客户,对服务稳定性和可用性要求极高。Datadog 的 OnCall 实践也非常成熟,本文将介绍 Datadog 的 OnCall 实践,帮助大家更好地理解 OnCall 的重要性和实施方法。

没有值班轮班机制的坏处

  • 活都让憨憨干了,导致憨憨经常晚上被电话叫醒,长期疲惫不堪,没有时间干更有价值的事情,年底绩效不好,身体状况也每况愈下
  • 憨憨每天精神紧绷,工作效率低,值班时容易犯错,导致更大的故障,影响服务可用性,整个运维团队甚至整个技术团队都被老板怼
  • 憨憨的工作和生活没有边界,导致憨憨对公司的忠诚度降低,离职率上升。公司需要新招聘靠谱的憨憨,但是圈子小,憨憨的遭遇很容易让更多人知道,大家鄙视这家不人道的公司,公司招不到人

其实吧,不重视值班 OnCall,本质就是不重视稳定性。

Datadog 的 OnCall 轮班方式

  • 同时考虑大家的工作量,以及假期安排,以及临时调班。一般 6-8 个人组成一个值班组,轮流值班,如果人不够,至少也要保证 3-4 个人组成值班表。每次值班一般是 8-12 小时。
  • 不能频繁值班,容易倦怠;也不能老是不值班,那就没有动力去改进值班流程了。
  • 值班时,工程师只做值班相关的事情,比如接收告警、巡检、维护告警规则、仪表盘、SOP 等,不开发新功能。

上图是 Datadog 的 OnCall 值班表,确实挺复杂,实际上,老外一根筋,国内用户弯弯绕更多,值班需求更驳杂。

为值班人员提供支持

  • 培训:不培训、不提供资料,直接上岗,显然是不行滴。
  • 提供工具,Datadog 自然使用自己的 OnCall 工具,国内用户可以使用 Flashduty。 可以在一个平台上配置值班、调班,接收所有监控系统的告警,响应、认领、升级、分派。还配备手机 App,或与 IM 深度打通。
  • 备份:每次值班都是一主一备,主值班人睡着了,系统会自动通知备份人员,再不行就要上升到直线经理。

直接经理参与

Datadog 会有直接经理参与值班,一个是给大家做榜样,其次是让经理感受到炮火,感受到疾苦,这样经理才能更好的优化 OnCall 流程和工具。国内很多经理做了管理就不做一线了,久而久之就失去了对一线的感知,导致 OnCall 流程越来越糟糕。

最后推荐一下自家的 OnCall 产品,欢迎大家免费注册试用 👇

https://flashcat.cloud/product/flashduty/

Flashduty

参考资料:

标签: OnCall
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat