灭火图

快速收敛故障范围,是服务故障定位的入口,通过管理和观测系统(功能+模块)/组件/基础设施的核心指标,快速收敛故障范围,确定责任团队。并关联多种故障定位渠道,引导用户按最佳实践和经验路径下钻完成故障定位过程。是北极星报警后,用户进入故障定位环节的入口。

产品介绍

在线服务故障后,北极星系统可以确定故障影响的业务线。处理工作的下一步则是要在IT系统层面确定故障的影响面,收敛故障影响的范围。灭火图系统将一个业务从可观测的角度分为系统(功能+模块)、组件、基础设施,采用核心指标量化各层对象的健康状态,并提供相应信息的快速配置和生成方式。

  • 1. 系统:支撑一个业务运行的IT模块和功能的集合。任一灭火图系统都有 功能 和 模块 两个观测维度。
  • 2. 功能:从用户端看,是用户可以操作的功能对应的接口,也是程序模块间相互调用的API。灭火图通过 3 大黄金指标(流量、成功率、延迟)量化功能的健康状态;
  • 3. 模块:支撑功能运行的相关程序实例集合,实体是部署在线上的程序,量化方式:实例存活率、CPU/内存/存储/IO 等资源;
  • 4. 组件:支撑模块的公共组件,如 KV 存储系统、消息队列等、RDS等,量化的方式因组件而异;
  • 5. 基础设施:如内/外网络、物理机/虚拟机、容器/容器平台、CDN、DNS 等,量化的方式也因资源类型不同而异;

灭火图通过“飘红”来标识各层观测对象的健康状态,并关联多种进一步定位所需的定位渠道,沉淀故障定位的最佳路径,做到“定位信息即时可得”、“定位门槛持续降低”。

立体观测

业务线->功能/模块->组件->基础设施立体的层次结构,从上往下逐层收敛影响范围

快速引导

预置故障定位的最佳实践,支持沉淀历史定位的最佳路径,快速引导完成定位过程

智能高效

不断提升智能化,将故障的关键特征、关键事件直接标识到灭火图,即时完成定位

配置简单

支持日志分析、prometheus等数据源数据按规则批量导入

产品架构

开源版
Flashcat
Flashduty