顶级 SaaS 公司 Datadog 是如何做 OnCall 的
快猫运营团队
2025-04-29 09:07:38
导读
Datadog 是监控、可观测性领域的头部玩家,市值几百亿美金,拥有众多 SaaS 客户,对服务稳定性和可用性要求极高。Datadog 的 OnCall 实践也非常成熟,本文将介绍 Datadog 的 OnCall 实践,帮助大家更好地理解 OnCall 的重要性和实施方法。
没有值班轮班机制的坏处
- 活都让憨憨干了,导致憨憨经常晚上被电话叫醒,长期疲惫不堪,没有时间干更有价值的事情,年底绩效不好,身体状况也每况愈下
- 憨憨每天精神紧绷,工作效率低,值班时容易犯错,导致更大的故障,影响服务可用性,整个运维团队甚至整个技术团队都被老板怼
- 憨憨的工作和生活没有边界,导致憨憨对公司的忠诚度降低,离职率上升。公司需要新招聘靠谱的憨憨,但是圈子小,憨憨的遭遇很容易让更多人知道,大家鄙视这家不人道的公司,公司招不到人
其实吧,不重视值班 OnCall,本质就是不重视稳定性。
Datadog 的 OnCall 轮班方式
- 同时考虑大家的工作量,以及假期安排,以及临时调班。一般 6-8 个人组成一个值班组,轮流值班,如果人不够,至少也要保证 3-4 个人组成值班表。每次值班一般是 8-12 小时。
- 不能频繁值班,容易倦怠;也不能老是不值班,那就没有动力去改进值班流程了。
- 值班时,工程师只做值班相关的事情,比如接收告警、巡检、维护告警规则、仪表盘、SOP 等,不开发新功能。
上图是 Datadog 的 OnCall 值班表,确实挺复杂,实际上,老外一根筋,国内用户弯弯绕更多,值班需求更驳杂。
为值班人员提供支持
- 培训:不培训、不提供资料,直接上岗,显然是不行滴。
- 提供工具,Datadog 自然使用自己的 OnCall 工具,国内用户可以使用 Flashduty。 可以在一个平台上配置值班、调班,接收所有监控系统的告警,响应、认领、升级、分派。还配备手机 App,或与 IM 深度打通。
- 备份:每次值班都是一主一备,主值班人睡着了,系统会自动通知备份人员,再不行就要上升到直线经理。
直接经理参与
Datadog 会有直接经理参与值班,一个是给大家做榜样,其次是让经理感受到炮火,感受到疾苦,这样经理才能更好的优化 OnCall 流程和工具。国内很多经理做了管理就不做一线了,久而久之就失去了对一线的感知,导致 OnCall 流程越来越糟糕。
最后推荐一下自家的 OnCall 产品,欢迎大家免费注册试用 👇
https://flashcat.cloud/product/flashduty/
参考资料: