稳定性体系建设白皮书

白皮书简介

稳定性体系建设是SRE最重要的工作内容,有哪些思路,哪些方法论,哪些支撑性的产品,哪些落地经验。稳定性体系建设白皮书,尝试给一个答案,和业界同仁一起探讨。
下载

白皮书导读

一款好用的产品,一定不只是产品,而是方法论的产品化落地实现。如果没有方法论作为后盾,即使拿到金玉良材,也很难锻造出匠心之作。

要做稳定性,实际就是和故障战斗的过程。梳理故障的全生命周期,对我们做这个事情意义重大。在生命周期的各个阶段,分别应该做哪些事情让故障快速终止,甚至扼杀在摇篮之中?如果把这些事情做好了,故障的影响就可以降低,下面是典型的故障生命周期图:

20230418200940

故障开始之前,要做常态预防,做量化分析找到潜在隐患;故障开始之后,要尽快发现,并且快速定位故障的直接原因,注意,这里说的是直接原因,不是根因,知道直接原因就可以止损了,根因可以留待后续排查,有的时候定位到某个直接原因并且执行了止损动作,但是故障没有恢复,说明找的原因不对,需要继续寻找,继续止损,这个动作可能循环往复几次才能最终止损;故障恢复之后就是复盘了,大家一块贡献线索,梳理时间线,找到具体是哪个代码导致的,亦或者哪个误操作导致,亦或者是流程缺失、设计不合理等等,然后形成改进TODO,做针对性的改进。

各个环节具体落地的时候,有哪些核心思路,有哪些坑,应该先做什么再做什么,有哪些产品可以支持达成目的,是《稳定性体系建设白皮书》关注的重点。

开源版
Flashcat
Flashduty