知乎:SLO 运营实践
在第二届 CCF 夜莺创新论坛上,知乎基础架构研发工程师邱天罡分享了知乎的可观测性体系实践和经验,以及如何利用 SLO 持续的度量、追踪和改进系统可用性。
汇总 Flashcat 博客中与 SLO 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
在第二届 CCF 夜莺创新论坛上,知乎基础架构研发工程师邱天罡分享了知乎的可观测性体系实践和经验,以及如何利用 SLO 持续的度量、追踪和改进系统可用性。
探索相关术语定义以及 SLA、SLO 和 SLI 如何帮助有效监控和维护系统性能。
定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability
SLO落地难,有哪些落地方法,Flashcat北极星、灭火图等产品可以帮助你
通过几个方面来建设稳定性体系:建立全面的度量体系、重点加强信息协同/让数据说人话、特定场景下的智能辅助决策
如何建立云原生组织,有8个要素分享给大家,分别是:平台团队、SRE团队、应用开发团队、Business KPIs、SLOs、DevOps、GitOps、IaC