稳定性体系建设白皮书
稳定性体系建设要围绕故障生命周期展开:事前预防、事中发现与止损、事后复盘改进,并通过方法论和工具把这些动作产品化。
汇总 Flashcat 博客中归属于 最佳实践 分类的文章,方便按内容类型连续阅读产品实践、客户案例和可观测性方法。
稳定性体系建设要围绕故障生命周期展开:事前预防、事中发现与止损、事后复盘改进,并通过方法论和工具把这些动作产品化。
一次线上服务故障之后,技术团队应该如何应急响应、快速止损和复盘沉淀?本文总结 6 个稳定性保障误区与对应经验。
稳定性一号位或稳定性负责人应承担什么职责:承担结果责任,制定可分解可量化的稳定性目标,锁定预算,并建立提升确定性、降低门槛的技术保障体系。
分析经典 SLO(CSLO)在故障处理场景中的适用边界,介绍以 BLO 做故障发现、以服务层 SLO 做故障定位的稳定性实践。