北极星系统 SLA 管理实践
在北极星指标与告警稳定运行后,基于业务线开展 SLI/SLO、错误预算(配额)扣减与可用性运营。
SLA 管理进阶
目标:在北极星已能稳定发现故障并驱动处理的前提下,建立业务线级别的稳定性运营机制,使保障工作可度量、可复盘、可持续。
若尚未完成核心指标的梳理、配置与告警闭环,建议优先完成「落地步骤」;本节属于进阶实践。
步骤一:概念统一
故障治理中常混用「事件、异常、故障、事故、问题」等词,建议在组织内先统一口径,降低沟通成本。以下为 Flashcat 语境下的参考划分(可按企业规范微调):
| 概念 | 说明 |
|---|---|
| 事件 | 范围最大,含正常业务事件(如大促流量抬升)与各类异常。 |
| 异常 | 业务受损类情况的总称(轻到重)。 |
| 问题 | 较轻的异常,尚未达到北极星告警触发条件。 |
| 故障 | 严重程度达到触发北极星告警的异常,需要紧急响应。 |
| 事故 | 影响面大或持续时间长的故障,可在故障之上再分级。 |
关系可概括为:事件 ⊃ 异常 ⊃ 故障;「故障」通常是启动紧急响应与配额扣减讨论的分水岭。
步骤二:基于 SLI 量化故障标准
1)SLI 选取
北极星指标天然可作为 SLI(Service Level Indicator)。若同一条业务线下存在多条相关指标(如总订单量与分地域订单量),可从中选取能覆盖核心业务流程的子集作为定级依据。
原则:所选 SLI 集合能代表用户/业务核心路径是否健康。
2)等级量化(示例)
企业可按自身风险偏好定义,下表仅为示例,用于说明「用北极星所代表的累计量变化 + 持续时间」做量化分级的思路:
| 等级 | 示例条件(需自行校准) |
|---|---|
| P0 重大 | 任一 SLI 在故障期累计量相对正常参照下降超过 50%,且持续 ≥30 分钟;或相对日总量影响超过约定阈值等。 |
| P1~P3 | 按下降比例、持续时间、占日总量比例等分档。 |
| P4 | 已触发北极星告警,但未达到更高等级量化条件。 |
| P5 | 未达到北极星告警阈值的局部问题。 |
定义中若使用「累计量」「故障区间」「参照基线」等,需在组织内写清统计算法(例如相对 7 天前同时段的涨幅修正等),保证每次复盘可复现。
产出:书面化的故障等级定义与 SLI 映射表。
步骤三:可用性配额(Error Budget)
配额即全年(或考核周期内)允许的业务不可用总时长(或等价错误预算),是 SLO(Service Level Objective) 的输入之一。也可先设目标可用性,再反推配额;从业务语义出发,往往先定配额再微调目标更直观。
需事先约定:哪些故障等级会扣减配额、扣减公式(按持续时间全额扣减、按等级系数扣减、按影响面加权等)。
产出:各业务线配额数值与扣减规则。
步骤四:可用性目标(SLO)在北极星中的录入与消耗
在业务线维度录入配额后,Flashcat 可据此计算目标可用性;故障复盘后登记消耗的配额,系统可结合当年已消耗部分计算当前可用性与在「假设不再发生事故」下的预估可用性,用于与目标对照。
示例公式(单位:分钟)
- 目标可用性 ≈
(365 × 24 × 60 − 配额) / (365 × 24 × 60) × 100%
例如配额 262.8 分钟对应约 99.95% 年目标(按平年折算;闰年或自定义考核周期时请按实际天数调整)。 - 当前可用性可按「自年初至今日历时长 − 已消耗」与已过分钟数比值估算(产品界面展示逻辑以线上为准)。
- 预估可用性可理解为:若从当前到年末不再消耗配额,年末可达成的可用性水平,用于预警「预算是否够用」。
术语对照
- SLA:服务水平协议(对外或对内承诺)。
- SLO:服务水平目标(内部目标)。
- SLI:服务水平指标(北极星上观测的具体指标)。
- Error Budget / 配额:在 SLO 约束下允许的错误或不可用预算。
注意:不同企业的 SLI 选取、等级定义与扣减算法不同,不宜跨组织横向对比绝对数值;更有价值的是同一标准下的同比、环比与持续运营趋势。
产出:配额已在北极星业务线中维护;每次事故后更新消耗并有复盘记录。
SLA 管理最佳实践(摘要)
- 建立业务线或公司级的稳定性联合组织,对可用性结果负责。
- 定期输出各业务线的指标达成、故障与改进项闭环情况。
- 对配额消耗异常偏高的团队加强复盘与架构/容量治理;对表现优秀的团队予以激励。