北极星
业务指标实时看板:通过对业务/系统核心指标的梳理、采集、计算、智能检测和报警,达到发现 真.故障,并驱动起故障处理流程的目的,是Flashcat故障发现和启动处理流程的入口。北极星系统支持可视化大屏、指标异常波动智能检测和通知,当业务受损时,北极星总能第一时间发现。
产品介绍
企业即使有完善的可观测系统,也不能在服务稳定性保障中避免以下问题:
北极星系统引导用户梳理业务的核心指标,提供能力将各类数据源的数据转化为时序数据,并进行智能检测和报警,达到定义和发现”真.故障“,随时掌握和说清故障业务影响的目的。
- 1. 报警多:日常报警/预警和真正的故障报警混合在一起,导致故障报警可能被忽略;
- 2. 误报多:报警的策略和阈值靠人工配置,不合理不准确是常态,导致经常报,引起狼来了的效应;
- 3. 协同不及时:故障确认后由 oncall 人员或部分一线人员上报,重要性的同步和人员的协同明显延长处理时间;
- 4. 响应不及时:所有报警均由个别 oncall 人员或一线人员处理,个人可能因各种原因响应不及时,特别是节假日;
- 5. 说不清楚:故障是否真的出现了,对业务的影响是什么?故障影响处于什么状态?是否完全恢复了,通常很难说清楚;
北极星系统引导用户梳理业务的核心指标,提供能力将各类数据源的数据转化为时序数据,并进行智能检测和报警,达到定义和发现”真.故障“,随时掌握和说清故障业务影响的目的。
聚焦核心
聚焦于"少量"的业务核心指标,如在线用户数、实时订单量、实时支付量等
准确稳定
系统提供采集计算能力,引导用户从DB等业务系统,通过采集、转化、计算生产指标
高优保障
和日常监控系统隔离,为北极星系统的稳定运行和准确输出提供 VIP 保障
智能高效
通过算法对指标做智能异常检测,实现智能预警,避免人工配置报警的准确性问题和管理成本