夜莺-Nightingale
夜莺V6
项目介绍 架构介绍
快速开始
黄埔营
安装部署
升级
采集器
使用手册
API
数据库表结构
FAQ
开源生态
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
第3章:Prometheus告警处理
第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
第9章:Prometheus Operator
参考资料

北极星系统简介

北极星系统通过对业务核心指标的梳理、采集、计算、智能检测和报警,达到发现 真.故障,并驱动起故障处理流程的目的,是Flashcat故障发现和启动故障处理流程的入口。

电商系统北极星指标如:实时在线用户数、实时在线商品量、实时下单量、实时支付量、实时GMV等;
出行系统北极星指标如:实时发单量、实时接单量、实时在线司机量、实时完单量、实时支付量等;
各个行业的北极星指标均不尽相同,但都是该行业的核心业务指标。

快猫云眼北极星系统通过产品设计和智能检测等功能,为这类指标提供VIP保障,用于量化整个业务系统的健康状态和稳定性保障工作的效果。

术语

概念 说明
北极星 该子系统的统称,主要由两层组成:业务线层和指标层。
业务线 通常对应企业内部的一个业务组织,如B2C业务线、B2B业务线、视频业务线、团购业务线、出行业务线等。
指标 北极星指标用于定义相应业务线的整体健康状态,由一个或多个时序数据组成。
北极星指标出现异常,则说明该业务线的核心价值受到了真正的影响。
北极星指标配置后是全局共享的,可以被关联进任意多个业务线,业务线和指标是多对多的关系。
智能报警 北极星智能报警分为智能检测和报警策略两部分。
智能检测 Flashcat支持检测4类异常:
越界异常:系统会自动学习北极星指标趋势,生成预测模型,预测曲线未来实际值出现的区间,如实际值连续n次(默认值,可配置)超出预测的上界后下界,系统会输出越界异常事件;
同环比异常:系统会将最新的数据和同比环比数据进行对比(默认为7天前和1天前,可配置),如偏差连续n次(默认值,可配置)均达到设定的幅度(默认值,可配置),则输出同环比异常事件;
数据中断异常:系统周期性(通常是1分钟或30秒)对最新的数据进行检测,如连续n分钟(默认值,可配置)都没有检测到新数据,则输出数据中断异常事件;
绝对阈值异常:用户可设置针对指标绝对值的异常阈值和条件(>/</=…);
报警策略 智能检测系统输出的异常事件会自动输出给报警策略产生报警。报警策略配置的内容主要包括:报警时间区间、报警等级、报警渠道(支持电话、短信、邮件、IM等)、报警接收组等。报警策略可设置业务线共享的全局策略,和某个指标单独使用的个性化策略。
稳定性配额 北极星业务线可设置业务线全年的不可用时长配额,即允许业务故障出现的总时长,是业务稳定性管理的基础。
该功能属于进阶功能,启动时可暂不关注,待北极星指标完善、故障发现正常产生后再实施。

产品架构

北极星产品架构

开源版
Flashcat
Flashduty