稳定性体系建设白皮书

秦晓辉@快猫星云 2023年4月7日

一款好用的产品,一定不只是产品,而是方法论的产品化落地实现。如果没有方法论作为后盾,即使拿到金玉良材,也很难锻造出匠心之作。

要做稳定性,实际就是和故障战斗的过程。梳理故障的全生命周期,对我们做这个事情意义重大。在生命周期的各个阶段,分别应该做哪些事情让故障快速终止,甚至扼杀在摇篮之中?如果把这些事情做好了,故障的影响就可以降低,下面是典型的故障生命周期图:

20230407105920

故障开始之前,要做常态预防,做量化分析找到潜在隐患;故障开始之后,要尽快发现,并且快速定位故障的直接原因,注意,这里说的是直接原因,不是根因,知道直接原因就可以止损了,根因可以留待后续排查,有的时候定位到某个直接原因并且执行了止损动作,但是故障没有恢复,说明找的原因不对,需要继续寻找,继续止损,这个动作可能循环往复几次才能最终止损;故障恢复之后就是复盘了,大家一块贡献线索,梳理时间线,找到具体是哪个代码导致的,亦或者哪个误操作导致,亦或者是流程缺失、设计不合理等等,然后形成改进TODO,做针对性的改进。

各个环节具体落地的时候,有哪些核心思路,有哪些坑,应该先做什么再做什么,有哪些产品可以支持达成目的,是《稳定性体系建设白皮书》关注的重点。有需要的小伙伴可以联系我索取,关注公众号 SRETalk,后台回复:索取《稳定性体系建设白皮书》,并告知我们你的企业邮箱,我们就会把白皮书发到你的邮箱啦。

aaa

标签: SRE
开源版
Flashcat
Flashduty