灭火图系统最佳实践
最佳实践
灭火图使用最佳实践
- 确定支持某北极星业务线的“IT系统”,如xx业务线系统、中台系统、用户系统、引擎系统、地图系统等;
- 在灭火图首页创建这些IT系统(如该系统已存在则不需要重复创建,如中台系统、用户系统等公共系统可以在首页只创建一个卡片);
- 完成对应IT系统的核心功能和核心模块的梳理;
- 在相应系统卡片内完成核心功能和核心模块的单独/批量录入,设置飘红阈值;
- 在灭火图“系统”内将相关的功能或相关的模块放到一个组里,如发单相关的功能或支付相关的模块等;
- 日常观察校验数据是否准确,治理飘红阈值;
- 北极星指标报警后,处理人员通过配置的关联查看对应灭火图的情况,或直接在灭火图首页查看全局“系统”的状态,收敛故障在IT系统层面的范围,确定需要重点跟进的团队;
完成选定IT系统的核心功能配置工作,灭火图基本可以启动并逐步完善起来。下面是进一步完善的进阶部分,可逐步推进。
进阶实践
目标:进一步完善灭火图数据,并打通灭火图和北极星等周边系统的关联,串联起故障定位的路径
进阶部分包括完善灭火图的模块信息(如之前的步骤中未涉及)、服务组件信息、基础设施信息和关联信息。
步骤一:配置模块信息
功能最终是运行在线上的一个个程序实例以及他们之间的相互调用来实现的,完成相同功能的实例即构成模块。
发现功能异常后一般进一步的定位思路是查看模块的情况,如模块的实例存活状态、模块的资源使用情况等。
因此将模块信息配置到灭火图将非常有利于故障定位的进一步深入,甚至可以在灭火图一眼确定故障的“根源”。
相应的配置方案在前面已基本介绍,这里不再描述。
输出:灭火图模块卡片信息,可观测相应模块的实例存活率和各维度的资源使用情况。
步骤二:配置组件信息
组件服务的健康状态是定位服务故障的重要信息来源,组件灭火图的基本配置逻辑:
- 在Flashcat的仪表盘系统中,一键导入某类组件的大盘(前提是该组件的信息采集是通过标准的exporter/grafana-agent/categraf采集);
- 新增组件灭火图时,首先选定相应的组件大盘;
- 选择组件的单元标签,如clustername等,系统将根据该标签识别组件单元;
- 设置每个单元的健康指标(可设置多个)以及异常的条件;
- 设置组件单元中每个实例的健康指标(可选);
- 创建组件的灭火图,灭火图将根据提交的信息生成组件单元,并标识每个单元的状态,同时每个单元可继续带参数下钻到选定的组件大盘,以便问题定位时深入分析;
输出:每类组件都完成标准的信息采集,生成组件大盘,并按管理单元生成组件灭火图信息。
步骤三:配置基础设施信息
基础设施包括内外网网络、CDN、DNS、主机、容器、容器平台等,基础设施如出现异常,通常就是故障的直接“根源”。
基础设施的健康状态配置方式和组件灭火图的基本逻辑类似:
- 在Flashcat的仪表盘系统中,一键导入某类基础设施的大盘(前提是该组件的信息采集是通过标准的exporter/grafana-agent/categraf采集)。或者针对基础设施进行专项数据采集,并生成prometheus指标。
- 创建基础设施的大盘信息。
- 新增基础设施灭火图时,首先选定相应的组件大盘;
- 选择基础设施的单元标签,如region等,系统将根据该标签识别基础设施单元;
- 设置每个单元的健康指标(可设置多个)以及异常的条件;
- 基础设施一般不存在实例概念,因此不需要指定实例指标;
- 创建基础设施的灭火图,灭火图将根据提交的信息生成基础设施单元,并标识每个单元的状态,同时每个单元可继续带参数下钻到选定的基础设施大盘,以便问题定位时深入分析;
输出:每类基础设施都完成标准的信息采集,生成基础设施大盘,并按管理单元生成基础设施灭火图信息。
步骤四:配置关联信息
典型的故障定位过程是从业务、到功能、到模块、到组件、到基础设施。当然,也可能直接从基础设等底层对象的健康状态得出一次北极星异常的原因。
如能将这些信息从上到下关联起来,特别是北极星、功能、模块、组件、大盘、事件这些信息的关联和最佳实践路径的引导,将非常有助于故障定位效率的提升和故障定位门槛的降低。
因此,北极星、灭火图都提供了串联各相关信息的功能,将故障定位的最佳实践和老司机的经验沉淀到系统。
北极星的业务线内和灭火图各层卡片上都提供了关联配置的入口,可以根据系统内各元素的实际关联和定位经验进行配置。
重要提示:
|
输出:逐步在系统中沉淀故障定位的最佳实践和最佳路径。
重要提示:
|
通过以上配置,整个IT系统的健康状态和故障定位信息将逐步完善。在确定故障范围和责任团队的基础上,故障定位人员将可以在相应的灭火图对象上直接点击调出故障定位所需的下一步信息,引导完成整个故障定位过程,进一步提升故障定位的效率。