夜莺-Nightingale
夜莺V6
项目介绍 架构介绍
快速开始
黄埔营
安装部署
升级
采集器
使用手册
API
数据库表结构
FAQ
夜莺专业版
开源生态
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
第3章:Prometheus告警处理
第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
第9章:Prometheus Operator
参考资料

北极星系统落地步骤

落地步骤

目标:完成北极星指标的梳理、配置、报警,达到及时发现故障,驱动起故障处理流程的效果

步骤一:确定北极星业务线

北极星的业务线可根据企业内的业务组织来设置,一个业务线通常对应一个业务负责人(GM)。 如企业内的电商业务线、视频业务线、旅游业务线。也可视企业内的业务规模和划分情况做更细的拆分设置,如电商业务可能拆分为B2B业务线和B2C业务线。

参与方:北极星的落地需要由业务稳定性的负责方来lead推进。同时,北极星的核心工作之一是确定业务相关的北极星指标,因此建议业务负责人或业务人员参与进来。

重要提示:
  • 建议先选取一条核心及成熟的北极星业务线进行试点,待该业务线的整个流程落地顺畅后再推进更多业务线的落地。
  • 不建议选取新的、发展还不成熟或规模较小的业务线进行试点,这类业务线的北极星指标通常还不稳定、趋势还不明显,不利于对其进行观测和报警。选择这类业务线试点很可能无法充分发挥北极星系统的价值。

输出:企业内的北极星业务线,以及参与试点的业务线和相应的业务人员。

步骤二:梳理北极星指标

  • 指标选取:北极星指标通常是一个“量”相关的指标,如实时订单量、实时GMV、实时支付量、实时在线用户数等。这类指标非技术人员也能够理解其含义,并“直接”知道其出现异常后对业务意味着什么,是业务负责人最关心的业务指标。
  • 指标来源:北极星指标通常来源于业务的线上存储系统,如Mysql、Oracle等,也可选其它可靠来源,如prometheus、夜莺、Flashcat多维分析系统等。
  • 北极星指标梳。

说明:北极星指标梳理可一次性梳理完,再集中配置。也可采取先完成部分甚至一个核心指标的梳理和配置,后续再由相关人员在平台自行新增和调整。

重要提示:
  • 不建议选取如“订单系统请求成功率”这类指标作为北极星指标,主要有2点原因:
    1)请求成功率下降未必意味着用户请求的最终失败,可能系统重试后成功,或系统有其它容灾降级措施,甚至这个下降可能只是系统拒绝了攻击类或线下非预期连上来的请求;
    2)业务同学知道这个异常后仍然会问这个异常对业务的影响是什么这样的问题。这类指标和业务的直接感知仍然隔了一层;

  • 系统级的成功率这类指标在Flashcat里建议配置到灭火图里,作用于故障定位环节,将在"灭火图"系统中介绍。

  • 北极星指标有可能因现实的采集难度,导致暂时无法采集到最合适的指标,则可以考虑结合现实情况先选择一个替代的指标,待效果运行起来后再逐步优化为能够准确量化业务健康的北极星指标。

以上建议不是一成不变的,要视业务的差异和数据采集的难度来权衡,可遵循先落地后优化的原则

输出:业务线的北极星指标及数据来源。

步骤三:配置北极星业务线和指标

  • 北极星业务线:配置较为简单,其中的可用性目标和不可用时长管理启动时可不填写,在进阶实践部分介绍。
  • 北极星指标:北极星提供了将数据库(Mysql、Oracle等)数据转换为北极星时序数据的配置功能。也支持来源于prometheus、Flashcat日志分析系统的指标。

输出:完成北极星业务线以及相应北极星指标的配置。

步骤四:开启北极星智能报警

指标梳理并配置完成后,下一步就是开启报警。北极星智能报警分为智能检测报警策略两部分,智能检测输出异常事件,是报警策略的输入来源。

  • 智能检测:

    • 北极星指标配置完成后,Flashcat会自动学习指标的趋势(通常在1周左右),并预置智能检测参数。这部分参数正常情况下无需用户关注或修改。这一步用户重点观察校验北极星指标的数据正确性和连续性。待数据和趋势稳定后Flashcat会自动输出数据抖动的异常事件;
    • 除了智能检测,Flashcat还支持开启同环比检测:通常采用Flashcat的默认值即可,作为兜底用;绝对阈值检测:针对类似0~100%的百分比指标适合使用;数据中断检测:核心指标建议开启该检测,默认为15分钟;
  • 报警策略:

    • 业务线的报警策略分为共享策略和个性化策略。通常情况下只要配置一个共享策略,然后结合系统的推荐决定在该策略下开启哪些指标的报警即可。
    • 对于不适合使用共享策略的个别指标(如指标适合开启报警的时间和大部分其它北极星指标不一致、报警接收组不一致等情况)可以为其设置单独使用的报警策略。
重要提示:
  • 部分指标不适合开启或配置报警策略,包括的情况有指标离散、趋势不固定、抖动明显,这类指标人工也很难判断异常与否,容易产生大量不必要的报警,对北极星报警造成狼来了的负面效应。这类指标可作为辅助观察,但不开启报警策略。

输出:完成业务线内报警策略配置,开启北极星指标报警开关,正常接收并响应指标报警。

开源版
Flashcat
Flashduty