晚上总被电话吵醒?OnCall来帮你

李明 2024年6月28日

晚上总被电话吵醒?OnCall来帮你

OnCall 背景

OnCall 是许多行业,尤其是IT运维和技术支持领域的一项常规做法。OnCall的目的是在非工作时间或紧急情况下快速响应问题和事件,以确保业务连续性和服务质量。

大家先看看下面的一个案例:

某家互联网公司的IT运维工程师小王,负责维护公司的在线服务平台。平台24小时运行,需要随时监控其性能和可用性。

在凌晨12点刚刚进入梦乡,突然在凌晨1点被一通紧急电话吵醒,电话是监控系统自动拨来的,通知你公司的服务平台出现了连接超时问题,导致用户无法访问数据。小王迅速起床,登录系统进行故障排查和修复。但是这期间电话还是一直响个不停,经过一个小时的努力,问题得到解决,用户访问恢复正常。

第二天在凌晨3点又来了一通电话,这次是关于应用服务器的内存跑满的问题,导致服务响应缓慢。小王不得不再次起床,进行问题诊断和处理,经过长时间的紧急优化,系统逐渐恢复正常。刚要准备休息,又来了一通告警,原来是刚才有台机器没有重启引起的。

这样的事情经常发生,随着时间的推移,经常半夜被喊醒小王无法忍受了 😮‍💨 。。。

经过上面的案例,大家觉得最终的结果是不是不太合人意啊,但是确实有不少这样的案例仍在进行着。

为什么会发生这样的问题

产生上面问题的主要原因:

  1. OnCall 没有被重视起来
  2. 没有合适的OnCall系统来支撑

结合上面两点,需要一个结构化的解决方案

OnCall 结构化

  1. 建立OnCall文化:首先,需要在公司内部建立一种OnCall文化,包括制定和宣传OnCall流程、故障处理流程、升级机制和应急响应制度。

  2. 组建专业团队:其次,根据公司的OnCall政策,组建一个专业的OnCall团队,明确团队成员的职责,并进行有效的分工。

  3. 专业OnCall系统:接着,一个专业的OnCall系统至关重要,告警风暴会给支撑人员带来很大的伤害,甚至根本没法处理。

  4. 故障复盘与改进:通过故障复盘来检验OnCall体系的有效性,评估故障响应速度、处理时长和流程合规性,并据此进行改进。

通过这种结构化的方法,公司能够建立一个稳健的OnCall体系,提高对紧急情况的响应能力和处理效率。

OnCall 系统

在互联网巨头 Google 的 SRE 内部使用的 OnCall 系统为 Outalator。国内FlashCat团队推出了一款名为FlashDuty的产品,它在适配众多监控和即时通讯工具方面表现出色,同时提供了更为简洁直观的用户体验。

FlashDuty OnCall 功能介绍:

  1. 聚合功能 :聚合功能可以将多个相关的告警事件整合在一起,减少噪音并提供更清晰的事件视图。通过聚合相似的告警,汇总为单一的故障事件,从而避免告警泛滥,帮助团队集中精力解决实际问题。

  2. 值班管理 :值班管理用于管理团队成员的值班计划,确保在任何时间都有合适的人员处理紧急情况。值班管理允许创建灵活的小时、天、周和月粒度值班安排,包括轮班、规则覆盖和临时调班(应急响应)等,提供了相关的值班信息展示,方便查看和管理值班时间表。

  3. 告警升级:警升级机制确保在特定时间内未解决的告警能够及时升级到更高级别的支持团队或管理人员。这有助于确保所有告警都能得到及时的关注和处理,防止问题长时间未解决而导致的潜在业务影响。

  4. 自愈回调功能:当告警或故障发生时可以自动执行预定的接口来尝试恢复服务。例如自动重启服务、自动清理磁盘或执行其他预定义的修复脚本,旨在减少人工干预,快速恢复业务正常运行。

上述只是FlashDuty部分OnCall功能,还有服务日历、分析看板、告警屏蔽、告警抑制、多渠道IM通知等等功能,这些功能共同构成了一个强大的OnCall系统,能够帮助企业提高运维效率,减少系统故障时间和支撑人员的处理时间,提升整体的服务质量和响应速度。

结语

综上所述,FlashDuty 不仅继承了OnCall系统的技术精髓,还在易用性和本土化适配上做出了优化,使其成为国内用户在寻求高效OnCall解决方案时的理想选择。

你还在为找不到合适的OnCall系统而烦恼吗? 👉 看过来 FlashDuty

开源版
Flashcat
Flashduty