北极星系统落地步骤

从业务线划定、指标选取、指标池与图表配置，到异常检测与告警策略、大屏；与灭火图分工及常见陷阱说明。

目标：完成核心业务线的北极星指标梳理、入池、可视化与告警闭环，使「真实故障」能被稳定发现，并驱动值班与处理流程。

步骤一：确定北极星业务线（首页卡片）

业务线通常对齐企业内的业务组织或核心系统边界（如电商、视频、出行），并明确业务负责人 / GM 等对口角色。北极星落地建议由稳定性团队牵头，业务方参与指标选取与验收。

实践建议

先选一条成熟、流量稳定的核心业务线试点；待流程跑通再复制到其他业务线。
不建议用尚不成熟、指标趋势噪声大、难以解释波动的业务线做首批试点，否则智能检测与告警难以发挥价值。

产出：试点业务线范围、对口业务与研发/ SRE 联系人。

步骤二：梳理北极星指标（与灭火图分工）

在「指标池」中沉淀的应是业务或核心功能层面的原子指标，来源可为 MySQL/Oracle、Prometheus、日志分析等已接入数据源。

选取原则（建议每条候选指标自检）

业务/产品负责人能否不依赖技术解释读懂含义？
指标异常是否直接意味着业务受损或核心功能不可用？
指标在合理聚合后是否仍有明确业务含义（而非仅反映某台机器、某个实例的局部状态）？

三项均为「是」，再进入北极星；任一项为「否」，优先考虑灭火图卡片或其它观测视图。

toC / 高流量：优先「量」类——订单、支付、GMV、在线用户、关键页面 PV/UV 等。

toB / 低频系统：在「量」不稳定时，优先核心 API 成功率（去噪后）、关键流程拨测、批处理结果等「是否可用」类指标。

与灭火图的分工

主机与容器资源、中间件实例级 QPS/延迟、JVM、泛化错误日志计数等，更适合在灭火图按观测对象组织，用于定位与止损决策辅助。
「请求成功率」若作为北极星指标，需区分场景：若业务方仍无法从成功率直接理解业务影响，或成功率噪声大（重试、限流、攻击流量等），则更适合放在灭火图；对 toB 核心功能，经治理的成功率/拨测可作为北极星 SLI。

指标可一次性梳理后集中配置，也可先落地少量最关键指标，再迭代扩展。

产出：业务线级北极星指标清单、数据来源与负责人。

步骤三：配置业务线与指标池

新建业务线（首页卡片）：作为图表、告警、大屏的容器；后续多数配置依赖业务线已存在。
在指标池中创建北极星指标：从数据源计算或采集生成可复用的时序指标。
在业务线下新建图表并绑定指标：选择展示形态（折线、柱状、蜂窝、表格等），从指标池选择一条或多条指标。

业务线中的可用性配额 / SLO 可在初阶先留空，待告警与复盘机制成熟后再启用（见「SLA 管理实践」）。

产出：业务线已创建、指标已入池、核心图表已绑定指标并可稳定出数。

步骤四：开启智能检测与告警策略

北极星告警由异常检测与告警策略串联：检测产出事件，策略决定是否通知、通知谁、等级与时段等。

异常检测

智能预测：指标入池后系统会学习趋势（通常需一定时间窗口）；上线初期请重点校验数据正确性与连续性，再依赖预测类异常。
同环比：可作为兜底，多数场景可采用平台推荐默认参数。
阈值：对 0~100% 等有明确物理边界的指标尤为适用。
数据中断：核心指标建议开启，避免「无数据静默」。

检测参数在控制台中调整后可结合预览观察效果，关注连续触发次数、容忍度等，减少漏报与误报。

告警策略

多数业务线可先配置一条共享策略，再按图表/指标粒度打开需要告警的检测类型与等级。
对告警时段、接收组、等级要求差异大的个别指标，可单独配置策略。

不宜强行告警的情况：指标离散、趋势不稳定、人工难以判断阈值时，宁可仅作观察视图，避免「狼来了」稀释北极星信噪比。

产出：核心业务图表完成检测配置；告警策略与通知规则已关联；值班路径可稳定接收并响应告警。

步骤五（可选）：大屏与运营机制

在指标与告警稳定后，可为业务线启用北极星大屏（气泡图、地图等），用于重保与 NOC 场景；并结合「最佳实践」建立保障群、电话/IM 通知、与发布系统的联动止损等机制。

推荐端到端顺序（小结）

将一条业务线从 0 到 1 拉起时，建议顺序为：指标入池 → 业务线 → 图表并绑定指标 → 异常检测 → 告警策略（含通知规则）→ 大屏与运营。其中检测参数建议在界面中结合曲线反复校验后再放量通知。

若出现「告警未触发、图表无数据、检测过于敏感」等问题，可从告警策略沿链路向上回溯至指标池与数据源，逐项排查配置与数据连续性。

快猫星云联系方式

快猫星云联系方式

快猫星云联系方式

快猫星云Email

申请技术交流产品试用

快猫星云

产品

可私有化部署的全栈智能观测平台

SaaS 化的智能告警响应平台

SaaS 化的真实用户监控平台

开源项目

云原生监控告警系统

All-in-one 数据采集器

用户落地实践与案例集入口

开发者中心

集成开发文档与工具

产品使用指南与 API 参考

获取最新安装包与工具

产品演示与教程

技术分享与行业话题