北极星系统落地步骤
落地步骤
目标:完成北极星指标的梳理、配置、报警,达到及时发现故障,驱动起故障处理流程的效果
步骤一:确定北极星业务线
北极星的业务线可根据企业内的业务组织来设置,一个业务线通常对应一个业务负责人(GM)。 如企业内的电商业务线、视频业务线、旅游业务线。也可视企业内的业务规模和划分情况做更细的拆分设置,如电商业务可能拆分为B2B业务线和B2C业务线。
参与方:北极星的落地需要由业务稳定性的负责方来lead推进。同时,北极星的核心工作之一是确定业务相关的北极星指标,因此建议业务负责人或业务人员参与进来。
重要提示:
|
输出:企业内的北极星业务线,以及参与试点的业务线和相应的业务人员。
步骤二:梳理北极星指标
- 指标选取:北极星指标通常是一个“量”相关的指标,如实时订单量、实时GMV、实时支付量、实时在线用户数等。这类指标非技术人员也能够理解其含义,并“直接”知道其出现异常后对业务意味着什么,是业务负责人最关心的业务指标。
- 指标来源:北极星指标通常来源于业务的线上存储系统,如Mysql、Oracle等,也可选其它可靠来源,如prometheus、夜莺、Flashcat多维分析系统等。
- 北极星指标梳。
说明:北极星指标梳理可一次性梳理完,再集中配置。也可采取先完成部分甚至一个核心指标的梳理和配置,后续再由相关人员在平台自行新增和调整。
重要提示:
以上建议不是一成不变的,要视业务的差异和数据采集的难度来权衡,可遵循先落地后优化的原则。 |
输出:业务线的北极星指标及数据来源。
步骤三:配置北极星业务线和指标
- 北极星业务线:配置较为简单,其中的可用性目标和不可用时长管理启动时可不填写,在进阶实践部分介绍。
- 北极星指标:北极星提供了将数据库(Mysql、Oracle等)数据转换为北极星时序数据的配置功能。也支持来源于prometheus、Flashcat日志分析系统的指标。
输出:完成北极星业务线以及相应北极星指标的配置。
步骤四:开启北极星智能报警
指标梳理并配置完成后,下一步就是开启报警。北极星智能报警分为智能检测
和报警策略
两部分,智能检测输出异常事件,是报警策略的输入来源。
-
智能检测:
- 北极星指标配置完成后,Flashcat会自动学习指标的趋势(通常在1周左右),并预置智能检测参数。这部分参数正常情况下无需用户关注或修改。这一步用户重点观察校验北极星指标的数据正确性和连续性。待数据和趋势稳定后Flashcat会自动输出数据抖动的异常事件;
- 除了智能检测,Flashcat还支持开启同环比检测:通常采用Flashcat的默认值即可,作为兜底用;绝对阈值检测:针对类似0~100%的百分比指标适合使用;数据中断检测:核心指标建议开启该检测,默认为15分钟;
-
报警策略:
- 业务线的报警策略分为共享策略和个性化策略。通常情况下只要配置一个共享策略,然后结合系统的推荐决定在该策略下开启哪些指标的报警即可。
- 对于不适合使用共享策略的个别指标(如指标适合开启报警的时间和大部分其它北极星指标不一致、报警接收组不一致等情况)可以为其设置单独使用的报警策略。
重要提示:
|
输出:完成业务线内报警策略配置,开启北极星指标报警开关,正常接收并响应指标报警。