SRE们,请不要小看了 排班OnCall
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
先来看一下 Notion 的解释:
告警排班OnCall是指将系统的告警按照一定的轮换方式分配给运维人员值班处理。这种制度可以带来以下好处:
- 更快的响应时间:OnCall制度可以确保有专人负责处理系统告警,减少了响应时间和修复时间,提升了系统的可用性和稳定性。
- 提高运维效率:OnCall值班制度可以让运维人员更好地分配工作,避免重复工作和任务交叉,提高运维效率和工作质量。
- 增强团队凝聚力:OnCall制度可以促进团队成员之间的交流和合作,增强团队凝聚力和协作能力,提高团队整体水平。
建议SRE落实OnCall制度的原因如下:
- 保障系统稳定性:在复杂的IT环境中,系统的稳定性是至关重要的。OnCall制度可以让系统故障及时得到处理,保障系统的稳定性和可用性。
- 提高运维质量:OnCall制度可以让运维人员更加专注于工作,减少了干扰和打扰,提高了运维质量和效率。
- 增强团队协作:OnCall制度可以让团队成员更好地协作和合作,共同应对系统故障和问题,提高团队整体水平。
因此,建议SRE落实OnCall制度,以确保系统的稳定性和可用性,提高运维质量和效率,并增强团队协作和凝聚力。
下面是我的个人看法:
利于团队稳定
每个人都希望干点舒心的活,值班 OnCall 显然不是个舒心的活,比如我们现在做夜莺监控社区的答疑,有很多人不懂得《提问的智慧》,有的时候会让值班人员非常恼火。不舒心的事情只让特定的人干,那这个人就离离职不远了,而排班就是一个解决这类问题的手段。咱们轮换着来,比如一周一次,值班的这一周确实不太开心,但是总有个奔头。
利于知识沉淀
值班的这个人,在值班期间肯定是希望有看得见的产出的,值班期间最看得见的产出就是沉淀下来的文档、FAQ等,当然,如果能沉淀出自助化服务的平台,那自然是更好不过。因为大家都不想值班,那就会想办法改进,每个人都去值班就可以让所有人都有动力做出改进。
提供更好的支持服务
当这个人确定本周值班的时候,他就不去做其他事情了,时刻准备着帮助用户解决问题,对用户来说,反应效率更快了,体验也就更好了。如果没有排班,大家就容易相互踢皮球,说我有这个事情要忙,他有那个事情要忙,客户的工单却迟迟无法解决。如果是 SRE,通常会配备专门的值班手机,对于故障的响应会更好,值班手机的短信提醒铃声都是一首歌。。首歌。。歌,巨长,声音贼大,确保值班人员不遗漏问题。
那有没有什么工具可以支持排班这个事情呢?
其实最简单的就用个共享的表格也能做,就是稍微麻烦点,比如平时排了个班,节假日想调整,某人临时有事想换班调班,而且轮换的时候也没有自动通知提醒,管理起来都相对比较费劲。业内也有一些产品可以做这个事情,比如 PagerDuty 和 FlashDuty,排班功能都是免费的,各位可以尝试一下。最终的效果,一般大概都是长这个样子: