北极星系统简介

Flashcat 北极星通过对核心业务指标的梳理、采集、计算、智能检测与告警，发现真实故障并驱动处理流程；与灭火图、大屏等能力协同，量化业务与系统健康度。

北极星用于集中呈现并保障企业最关心的那类指标——业务负责人无需技术「翻译」即可理解其含义，且曲线异常能直接对应到业务受损或核心功能不可用。典型例子包括：电商的实时订单量、支付量、GMV、在线用户数；出行的发单量、接单量、完单量等。不同行业的具体指标不同，但都应满足「核心、可解释、可行动」这一标准。

Flashcat 在北极星上提供指标配置、智能异常检测、可视化（含业务大屏）、与灭火图下钻联动，以及业务线维度的稳定性 SLO / 配额管理等能力，用于量化整体健康度并支撑稳定性治理。

北极星在 Flashcat 中的位置

Flashcat 将故障处理场景拆解为「发现」与「定位」等环节：北极星面向「故障发现」，回答「业务/核心功能是否受损」；灭火图（Firemap） 更偏向 IT 系统与资源对象的健康全景与定位辅助。两者配合使用：北极星报警后，可通过图表上配置的下钻入口进入灭火图，收敛到具体模块、实例与指标。

层次结构：从首页到指标

北极星界面主要由首页层与图表层组成：从首页进入业务线，再进入图表；图表内展示一个或多个指标。

北极星首页
  └── 首页卡片（业务线），如：电商、视频、出行等
        └── 图表（图表层卡片），表达该业务/系统某一维度的健康度
              └── 指标（时序数据），可来自 Prometheus、日志、MySQL 等多种数据源

概念	说明
首页卡片 / 业务线	通常对应一条业务线或一套核心 IT 系统，是图表、告警策略、大屏等能力的容器。
图表	图表层上的可视化单元；可选用折线、柱状、蜂窝、表格、指标值、漏斗、状态迁移图等形式；一个图表可绑定一个或多个指标。
指标	从数据源计算或采集进入指标池的原子时序数据；可被多个图表复用。
分组	首页与图表层均支持分组，便于按域归类浏览。
指标池	已创建的北极星指标集合；配置图表时从池中选择要展示的指标。
下钻	图表内指标可配置下钻到灭火图卡片路径；关联卡片异常时，北极星界面可呈现提示，便于快速跳转分析。
大屏	基于业务线聚合多图表与关键指标，支持气泡、地图等模式，可配置刷新间隔、时间偏移、告警声音等，适用于 NOC 与重保值守。

智能检测与告警策略

智能检测产出异常事件；告警策略接收这些事件并触发通知（等级、生效时段、通知规则等）。多个图表可共享同一告警策略，通过在策略中关联图表生效。

当前北极星支持的主要异常检测类型包括：

智能预测：学习指标历史趋势，给出预测区间；实际值连续多次超出上/下界则产生异常事件（参数可配置）。
同环比检测：与指定同比/环比序列对比，偏差连续多次达到设定幅度则告警（参数可配置）。
数据中断检测：按周期检查最新数据，连续若干周期无新数据则视为异常（参数可配置）。
阈值检测：对指标绝对值设置 >、<、= 等条件。

说明：异常检测当前面向单曲线指标场景；含单曲线的图表上可配置检测与告警联动。

异常展示：指标异常时，所在图表及所属业务线（首页卡片）可呈现高亮提示，便于值班快速感知。

稳定性 SLO（进阶）

业务线（首页卡片）可配置全年不可用时长配额（或等价错误预算）。系统可结合配额消耗（如故障复盘后的扣减）与目标，展示 SLO 达成与预估情况。该能力建议在核心指标与告警体系运转稳定后再逐步引入。

北极星指标的选取原则（与灭火图分工）

北极星定位为业务 / 系统核心健康指标的中枢，硬标准是：业务负责人能直接读懂；指标异常等价于业务异常或核心功能不可用；聚合后仍有明确业务含义（不过度依赖单台机器或单个中间件实例的局部波动）。

偏 toC、请求量大的业务：适合用「量」类指标，如实时订单、支付、GMV、在线用户、关键页面 PV/UV 等。
偏 toB、低频或请求量小的系统：「量」的统计意义可能不足，更适合用核心 API 成功率（在剔除噪声后）、关键流程拨测成功率、批处理最近一次执行结果等，衡量「功能是否可用」。

下列指标更适合放在灭火图中与具体观测对象（主机、实例、中间件）一起看，而不宜强行汇入北极星单条聚合曲线：CPU/内存/磁盘、中间件 QPS/延迟、JVM 堆、通用错误日志条数等——它们对定位很有价值，但不一定直接等价于业务受损，且常与具体实例绑定。

产品架构

北极星产品架构

术语速查

术语	含义
北极星	本子系统的总称；由首页（业务线）与图表、指标等层次构成。
业务线	见上表「首页卡片 / 业务线」。
智能告警	含「异常检测」与「告警策略」两部分。
告警策略	接收检测事件，配置等级、时段、通知规则、重复与恢复通知等。通知能力依赖平台告警管理中的通知媒介与通知规则配置。