最佳实践:灭火图 - 故障发现和定位的入口

Flashcat 灭火图是故障发现和定位的入口,通过服务、模块、组件、基础设施等层级化健康视图,聚合时延、流量、错误、饱和度等指标,并串联指标、日志、链路、事件等下钻分析能力。

作者 快猫技术

通过深入分析和解决企业在可观测性和稳定性保障方面的挑战,Flashcat 提出了“灭火图”这一关键概念。

灭火图以服务、模块、基础组件、基础设施等为维度,用聚合视角实时度量某个特定维度的可用性。典型指标包括时延、流量、错误和饱和度,并可以为可用性指标自动设定合理阈值,回溯历史上指定时间点的可用性状态,典型跨度为 24 小时。

灭火图是发现服务健康与否的入口,也是整个故障定位信息系统的核心。从灭火图开始,团队可以下钻到具体接口、基础设施、链路分析数据、问题特征和相关事件等关键维度,引导技术团队更高效地定位故障。

今天详细为大家介绍服务故障定位的入口工具:Flashcat-灭火图

核心要点

  • 灭火图用层级化方式表达 IT 系统健康状态,适合从全局视角发现异常影响范围。
  • 灭火图不是普通仪表盘,它更强调对象模型、状态聚合、层层下钻和排障路径引导。
  • 在 Flashcat 中,灭火图可以串联北极星、智能告警、日志、Trace、事件和仪表盘等能力。
  • 对 C 端业务,可以按接口、微服务、组件、基础设施规划灭火图层级。
  • 灭火图既可用于故障处理,也可用于日常巡检、拓扑大屏和稳定性保障。

灭火图的功能定位是什么?

在建设和使用可观测性平台的过程中,我们是否经常遇到以下这些问题:

  • 数据分散:需要观测的数据一部分在这个平台,一部分在那个平台,查看和对比时需要频繁切换。
  • 数据太多:一个主机几十个指标,一个微服务几十个指标,追溯问题时面对成百上千的指标、日志等数据,不知从何下手。
  • 难以追溯:发现服务异常后,还要判断是网络设备问题、底层基础设施问题,还是上层服务问题;追溯时需要先确认底层设备,再依次排查对应数据。
  • 难以解决:不同模块和设备往往由不同人员负责,如果没有负责人及时介入,问题可能在多个团队之间流转,拖慢恢复速度。

通过灭火图,我们针对性的解决监控中这些痛点,更加快速的帮助用户发现、定位并解决问题。

灭火图观测层级规划

灭火图在 Flashcat 故障定位中的位置

灭火图是 Flashcat 故障定位环节的入口,也是连接 Flashcat 各类分析能力的核心。

团队可以通过 Flashcat 的北极星系统和智能告警发现业务异常。日常巡检中,也可以通过浏览灭火图,快速聚焦可能出现问题或已经出现问题的接口、模块,以及下层组件和基础设施,并继续下钻查看具体是哪一部分发生问题。

通过灭火图卡片的关联分析入口,查看所有卡片相关的数据并通过灵活多样化的分析工具和下钻功能继续找到问题根因并解决。

也可通过卡片告警功能对问题发生进行及时预警,以便更加及时的解决可能发生的问题。以灭火图为入口,一站式完成问题的发现、定位、解决、预防的一系列操作。

灭火图和仪表盘有什么区别?

仪表盘和灭火图都可用于日常巡检和问题排查,但两者解决的问题不同。

对比维度 灭火图 仪表盘
组织形态 结构化表达系统的功能、组件、基础设施等对象,可层层下钻 更侧重数据平铺和多样化展示,各仪表盘通常是并列关系
分析方式 串联指标、日志、链路、事件和问题特征,引导排障路径 展示具体对象或主题的明细数据,常配合变量切换查看
使用阶段 适合故障处理早期,用于收敛影响范围和定位方向 适合定位到具体对象后,查看更细粒度的指标和图表
典型价值 系统立体抽象和关键数据浓缩 监控对象明细数据呈现

在故障处理时,问题范围收敛、排查路径引导等环节更需要使用灭火图。当问题定位到某个具体对象,例如一台服务器或一个数据库时,再查看该对象的仪表盘详情做进一步分析。因此,仪表盘可以作为基于灭火图追查问题的一个后续环节,两者结合起来可以加速问题排查分析。

传统仪表盘: Flashcat 仪表盘

灭火图: Flashcat 灭火图

C 端服务如何规划 Flashcat 灭火图?

下面是一套 Flashcat 灭火图面向 C 端服务的实践路径:

  1. 将灭火图首页层级规划为:接口、微服务、组件、基础设施。
  2. 确定支持北极星业务线的核心接口(如订单系统核心接口、用户系统核心接口等)、微服务及对应负责人。
  3. 确定支持以上接口和微服务的组件(如 MySQL、Redis、Kafka 等)、基础设施(网络、DNS 等)及对应负责人。
  4. 基于灭火图的各类模板创建规则,规则将自动生成接口、微服务、组件和基础设施的灭火图卡片,并分层展示。同时规则可定期自动执行,自动更新卡片。
  5. 灭火图能够自动关联日志、Trace 等信息,也可手动补充关联,例如某微服务的变更事件、某组件的仪表盘等。
  6. 巡检或故障处理时,在灭火图首页观测服务全局状态。有飘红部分则下钻追查,收敛问题范围,并按关联线索排查相应的指标、日志、Tracing、事件等。

针对不同行业、toC 和 toB 业务特点,灭火图配置和观测对象可以灵活设置。

灭火图故障定位流程

此外,灭火图能够快速生成为拓扑大屏展示形式,非技术人员也可以简明的完成日常巡检和异常观察。

电商类业务拓扑图

灭火图适用于哪些业务?

灭火图是IT系统全局健康状态的量化,也是服务故障的处理入口,在需要稳定性保障的场景都可以发挥其价值。

例如:

  • 门店类业务
  • 出行类业务
  • 电商类业务
  • …..

灭火图适用行业

FAQ

Q1:灭火图是不是一种更漂亮的仪表盘? A:不是。仪表盘主要展示数据,灭火图更强调结构化对象、健康状态聚合和排障路径下钻。它解决的是从全局状态到具体问题定位的入口问题。

Q2:灭火图适合放哪些对象? A:原文推荐的 C 端服务规划包括接口、微服务、组件和基础设施。实际落地时,可根据行业、toC 或 toB 业务特点灵活调整。

Q3:灭火图如何帮助故障定位? A:它先用红绿状态帮助团队发现异常对象,再通过卡片关联的指标、日志、Trace、事件和仪表盘继续下钻,逐步收敛问题范围。

总结

灭火图正成为企业提升稳定性保障能力、加速故障定位的重要工具。它把系统健康状态、对象模型和下钻路径组织在一起,让团队从全局异常出发,逐步定位到具体接口、组件、基础设施或相关事件。

Flashcat 故障定位流程示意

联系我们交流

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

标签 Flashcat
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云