北极星系统 SLA 管理实践

在北极星指标与告警稳定运行后，基于业务线开展 SLI/SLO、错误预算（配额）扣减与可用性运营。

SLA 管理进阶

目标：在北极星已能稳定发现故障并驱动处理的前提下，建立业务线级别的稳定性运营机制，使保障工作可度量、可复盘、可持续。

若尚未完成核心指标的梳理、配置与告警闭环，建议优先完成「落地步骤」；本节属于进阶实践。

故障治理中常混用「事件、异常、故障、事故、问题」等词，建议在组织内先统一口径，降低沟通成本。以下为 Flashcat 语境下的参考划分（可按企业规范微调）：

关系可概括为：事件 ⊃ 异常 ⊃ 故障；「故障」通常是启动紧急响应与配额扣减讨论的分水岭。

1）SLI 选取

北极星指标天然可作为 SLI（Service Level Indicator）。若同一条业务线下存在多条相关指标（如总订单量与分地域订单量），可从中选取能覆盖核心业务流程的子集作为定级依据。

原则：所选 SLI 集合能代表用户/业务核心路径是否健康。

2）等级量化（示例）

企业可按自身风险偏好定义，下表仅为示例，用于说明「用北极星所代表的累计量变化 + 持续时间」做量化分级的思路：

等级	示例条件（需自行校准）
P0 重大	任一 SLI 在故障期累计量相对正常参照下降超过 50%，且持续 ≥30 分钟；或相对日总量影响超过约定阈值等。
P1～P3	按下降比例、持续时间、占日总量比例等分档。
P4	已触发北极星告警，但未达到更高等级量化条件。
P5	未达到北极星告警阈值的局部问题。

定义中若使用「累计量」「故障区间」「参照基线」等，需在组织内写清统计算法（例如相对 7 天前同时段的涨幅修正等），保证每次复盘可复现。

产出：书面化的故障等级定义与 SLI 映射表。

配额即全年（或考核周期内）允许的业务不可用总时长（或等价错误预算），是 SLO（Service Level Objective） 的输入之一。也可先设目标可用性，再反推配额；从业务语义出发，往往先定配额再微调目标更直观。

需事先约定：哪些故障等级会扣减配额、扣减公式（按持续时间全额扣减、按等级系数扣减、按影响面加权等）。

产出：各业务线配额数值与扣减规则。

在业务线维度录入配额后，Flashcat 可据此计算目标可用性；故障复盘后登记消耗的配额，系统可结合当年已消耗部分计算当前可用性与在「假设不再发生事故」下的预估可用性，用于与目标对照。

示例公式（单位：分钟）

目标可用性 ≈ (365 × 24 × 60 − 配额) / (365 × 24 × 60) × 100%
例如配额 262.8 分钟对应约 99.95% 年目标（按平年折算；闰年或自定义考核周期时请按实际天数调整）。
当前可用性可按「自年初至今日历时长 − 已消耗」与已过分钟数比值估算（产品界面展示逻辑以线上为准）。
预估可用性可理解为：若从当前到年末不再消耗配额，年末可达成的可用性水平，用于预警「预算是否够用」。

术语对照