北极星系统简介
Flashcat 北极星通过对核心业务指标的梳理、采集、计算、智能检测与告警,发现真实故障并驱动处理流程;与灭火图、大屏等能力协同,量化业务与系统健康度。
北极星用于集中呈现并保障企业最关心的那类指标——业务负责人无需技术「翻译」即可理解其含义,且曲线异常能直接对应到业务受损或核心功能不可用。典型例子包括:电商的实时订单量、支付量、GMV、在线用户数;出行的发单量、接单量、完单量等。不同行业的具体指标不同,但都应满足「核心、可解释、可行动」这一标准。
Flashcat 在北极星上提供指标配置、智能异常检测、可视化(含业务大屏)、与灭火图下钻联动,以及业务线维度的稳定性 SLO / 配额管理等能力,用于量化整体健康度并支撑稳定性治理。
北极星在 Flashcat 中的位置
Flashcat 将故障处理场景拆解为「发现」与「定位」等环节:北极星面向「故障发现」,回答「业务/核心功能是否受损」;灭火图(Firemap) 更偏向 IT 系统与资源对象的健康全景与定位辅助。两者配合使用:北极星报警后,可通过图表上配置的下钻入口进入灭火图,收敛到具体模块、实例与指标。
层次结构:从首页到指标
北极星界面主要由首页层与图表层组成:从首页进入业务线,再进入图表;图表内展示一个或多个指标。
北极星首页
└── 首页卡片(业务线),如:电商、视频、出行等
└── 图表(图表层卡片),表达该业务/系统某一维度的健康度
└── 指标(时序数据),可来自 Prometheus、日志、MySQL 等多种数据源
| 概念 | 说明 |
|---|---|
| 首页卡片 / 业务线 | 通常对应一条业务线或一套核心 IT 系统,是图表、告警策略、大屏等能力的容器。 |
| 图表 | 图表层上的可视化单元;可选用折线、柱状、蜂窝、表格、指标值、漏斗、状态迁移图等形式;一个图表可绑定一个或多个指标。 |
| 指标 | 从数据源计算或采集进入指标池的原子时序数据;可被多个图表复用。 |
| 分组 | 首页与图表层均支持分组,便于按域归类浏览。 |
| 指标池 | 已创建的北极星指标集合;配置图表时从池中选择要展示的指标。 |
| 下钻 | 图表内指标可配置下钻到灭火图卡片路径;关联卡片异常时,北极星界面可呈现提示,便于快速跳转分析。 |
| 大屏 | 基于业务线聚合多图表与关键指标,支持气泡、地图等模式,可配置刷新间隔、时间偏移、告警声音等,适用于 NOC 与重保值守。 |
智能检测与告警策略
智能检测产出异常事件;告警策略接收这些事件并触发通知(等级、生效时段、通知规则等)。多个图表可共享同一告警策略,通过在策略中关联图表生效。
当前北极星支持的主要异常检测类型包括:
- 智能预测:学习指标历史趋势,给出预测区间;实际值连续多次超出上/下界则产生异常事件(参数可配置)。
- 同环比检测:与指定同比/环比序列对比,偏差连续多次达到设定幅度则告警(参数可配置)。
- 数据中断检测:按周期检查最新数据,连续若干周期无新数据则视为异常(参数可配置)。
- 阈值检测:对指标绝对值设置
>、<、=等条件。
说明:异常检测当前面向单曲线指标场景;含单曲线的图表上可配置检测与告警联动。
异常展示:指标异常时,所在图表及所属业务线(首页卡片)可呈现高亮提示,便于值班快速感知。
稳定性 SLO(进阶)
业务线(首页卡片)可配置全年不可用时长配额(或等价错误预算)。系统可结合配额消耗(如故障复盘后的扣减)与目标,展示 SLO 达成与预估情况。该能力建议在核心指标与告警体系运转稳定后再逐步引入。
北极星指标的选取原则(与灭火图分工)
北极星定位为业务 / 系统核心健康指标的中枢,硬标准是:业务负责人能直接读懂;指标异常等价于业务异常或核心功能不可用;聚合后仍有明确业务含义(不过度依赖单台机器或单个中间件实例的局部波动)。
- 偏 toC、请求量大的业务:适合用「量」类指标,如实时订单、支付、GMV、在线用户、关键页面 PV/UV 等。
- 偏 toB、低频或请求量小的系统:「量」的统计意义可能不足,更适合用核心 API 成功率(在剔除噪声后)、关键流程拨测成功率、批处理最近一次执行结果等,衡量「功能是否可用」。
下列指标更适合放在灭火图中与具体观测对象(主机、实例、中间件)一起看,而不宜强行汇入北极星单条聚合曲线:CPU/内存/磁盘、中间件 QPS/延迟、JVM 堆、通用错误日志条数等——它们对定位很有价值,但不一定直接等价于业务受损,且常与具体实例绑定。
产品架构

术语速查
| 术语 | 含义 |
|---|---|
| 北极星 | 本子系统的总称;由首页(业务线)与图表、指标等层次构成。 |
| 业务线 | 见上表「首页卡片 / 业务线」。 |
| 智能告警 | 含「异常检测」与「告警策略」两部分。 |
| 告警策略 | 接收检测事件,配置等级、时段、通知规则、重复与恢复通知等。通知能力依赖平台告警管理中的通知媒介与通知规则配置。 |