一张图掌握 IT 系统健康状态 - Flashcat 灭火图

服务出现故障时,有没有一张图能够呈现出全系统各部分的健康状态,让团队快速找准问题范围,让经理、老板心中有数?灭火图就是这样一张图。更进一步,灭火图本质上是 IT 系统的"知识图谱",是 Flashcat 实现智能化稳定性保障的核心数据基座。

作者 快猫技术

服务出现故障时,有没有一张图能够呈现出全系统各部分的健康状态,以便技术团队追查问题时快速找准范围,也方便经理、老板指挥故障处理时,心中有数,有的放矢?

这是很多在企业中负责系统服务稳定性的朋友,给我们提的一个高频需求和想法。

Flashcat 灭火图就是这样一个产品,用一张图掌握在线系统的健康状态。而当我们沿着"立体观测视图"的思路一路建设下来后会发现:灭火图本质上是 IT 系统的一份"知识图谱",它不仅服务于人,也服务于 AI —— 这正是 Flashcat 实现智能化稳定性保障最关键的一块数据基座

灭火图首页 - 着火点一目了然

灭火图是一个什么样的产品?

Flashcat 灭火图是一个面向系统稳定性问题排查和故障定位场景的平台,有以下特点:

① 一个立体的观测视图,看清系统的每个部分

灭火图有"首页"和"详情页"两个基本页面,首页可以下钻到详情页,首页和详情页内又可以进一步划分"层级",反映 IT 系统的层级关系。

灭火图首页

灭火图详情页

灭火图的透视模式,呈现形式类似大家熟悉的"服务树"。

比如可以组织出这样一个常见的系统层级:业务线 -> 子系统 -> 核心功能。 在这个层级中,最末端的层级可能有一张或多张卡片,每张卡片是一个"核心功能"。

透视模式效果如下:

灭火图透视模式 - 展开功能列表

灭火图透视模式 - 展开 App 列表

② 从观测"数据"到观测"对象"

不同于 Grafana 主要平铺的展示观测数据,灭火图是一个立体的视图,类似"服务树"。只是这颗树的节点上挂载的对象不再只是"机器资源",而是 IT 系统所有物理的和逻辑的 IT 对象或 IT 资产。如系统的功能接口、微服务、组件、存储、网络、DNS、系统、子系统等。

查问题时,先把问题范围收敛到 IT 对象,而非相互独立的指标,再从对象去看其相关的各维度指标,这样才更有利于从相关性中找出问题的原因。

灭火图提供了 IT “对象"发现和创建的规则,可以从观测系统中自动发现 IT 对象,并自定义这些 IT 对象的呈现层级和视角。

③ 系统中 IT 对象正常 / 异常一目了然

每张灭火图卡片(IT 对象)都会有 正常(飘绿)或 异常(飘红)两种健康状态。

健康状态可以层层透传,只要下层对象出现飘红,上层对象就一定飘红,这样,所有底层 IT 对象的异常状态最终都被汇总到了首页。在首页就可以一览系统各个部分的健康状态,快速确定异常的范围。

④ 准确量化 IT 对象的健康状态

灭火图是如何定义一个 IT 对象的健康状态呢?

灭火图会为每张底层卡片(IT 对象)配套用于量化其健康度的核心指标及异常条件。一旦异常条件达成,对应的卡片即飘红,这个飘红状态会透传到上层的每一个层级直到首页。

如底层的 IT 对象是核心功能,灭火图配套的健康度量化指标是该功能对应的三大黄金指标:流量、成功率、响应时间,异常条件则可能是成功率 < 99%。 如底层的 IT 对象是 MySQL 实例,灭火图配套的健康度量化指标是:实例存活状态、实例查询数量、实例慢查询数量、实例 CPU 使用率 …,异常条件则可能是 实例存活状态 == 0 || 实例慢查询数量 > 1。

每类 IT 对象都有不同的健康状态量化指标,灭火图内积累了常见 IT 对象的健康量化指标模板,可快速应用。

⑤ 关联问题排查路径,联动各维度观测数据

灭火图首页上观察到 IT 系统的异常点后,可以层层下钻找到具体的异常对象,并查看异常对象配套的健康状态量化指标趋势和异常条件。 同时,为进一步追查问题根因,可从异常的指标趋势上下钻该 IT 对象相关的日志、链路、事件、仪表盘等等维度的观测数据,即时获得问题排查路径上所需的所有数据。

灭火图提供了关联 IT 对象和相应观测数据的映射规则,可以基于灭火图实现各维度观测数据的串联融合,共同加速问题的排查定位,避免用户在各类观测系统间来回切换,也降低了问题排查的门槛。

总结

总结来讲,在问题排查的场景中,灭火图有以下功能和效果,加速了问题排查定位的过程:

  • 将 IT 系统及其层级、健康状态,用立体的方式呈现到用户面前
  • IT 系统每部分的健康状态一目了然,快速确定问题范围和层级
  • 从异常点下钻,直达异常的 IT 对象
  • 分析查看异常对象配套的健康量化指标、趋势和异常点
  • 下钻异常对象相关的各维度数据,快速分析异常原因

灭火图下钻追查 - 联动各维度数据

灭火图下钻追查 - 示意

再进一步:灭火图是 IT 系统的"知识图谱”

把灭火图的几个能力放到一起重新审视:它在每天运行的,恰好就是一份"活的、可执行的 IT 系统知识图谱"

知识图谱通常由"实体(Entity) + 关系(Relation) + 属性(Attribute)“构成,并强调结构化、可推理、可演进。把灭火图按这套语言拆开来看,对应得非常工整:

知识图谱要素 灭火图中的对应 说明
实体(Entity) IT 对象 / 灭火图卡片 业务线、子系统、核心功能、微服务、容器、主机、MySQL/Redis 等中间件实例、网络设备、DNS、专线……
关系(Relation)—— 层级关系 灭火图首页 → 详情页 → 层级 → 卡片 “业务线包含哪些子系统、子系统包含哪些核心功能、核心功能依赖哪些微服务”,整张图就是这种从属与依赖关系的显式表达
关系(Relation)—— 关联关系 卡片 ↔ 指标 / 日志 / 链路 / 事件 / 仪表盘 / 告警 的下钻映射 每个 IT 对象到底应该看哪条曲线、哪张表的日志、哪个 trace 入口、哪些告警规则、哪些事件源,全部以规则的形式被显式描述
属性(Attribute) 健康量化指标 + 异常条件 “三大黄金指标 + 成功率 < 99%"、“MySQL 慢查询数 > 1”…… 给每类对象一份可被代码 / 模型直接读懂的"健康度定义”
状态(State) 卡片实时的飘绿 / 飘红 + 层级透传 整张图谱不是静态文档,而是 每分每秒都在更新的"系统状态快照”
可演进(Evolution) 卡片规则 / 下钻规则 / 告警规则 + 模板中心 系统迭代时,规则与模板自动生成新对象、自动维护关系,随业务一起长大

换句话说:

灭火图 = “IT 系统中有哪些对象 + 这些对象之间是什么关系 + 每个对象用什么指标定义健康 + 每个对象出问题应该看哪些观测数据 + 此刻它们各自正不正常”

这就是一份 IT 系统完整的、动态的、机器可读的知识图谱。

很多团队过去用 CMDB 描述资产、用 Wiki 描述架构、用脑图描述依赖、用各种 Dashboard 描述指标,但它们彼此割裂、容易过时,更不能"被运行"。灭火图把这些零散的知识 统一到一张可执行的图上,并且与观测数据强绑定 —— 这是它对内对外都最稀缺的价值

智能化保障:从"知识图谱"到"AI 驱动运维"

为什么我们一定要强调"知识图谱"这件事?因为它直接决定了 AI 在可观测性场景下能走多远。

在 AI 与可观测性结合的实践中,业界普遍面临三个根本问题:

  1. AI 如何理解你的系统?
  2. AI 如何无障碍地读取你的观测数据?
  3. AI 如何把分析结论真正落到运维动作上,形成闭环?

很多产品做"AI + 可观测",给一段日志解读、给一组告警聚类,能力停留在 单点辅助 上,原因正是缺乏系统级的结构化上下文 —— 模型不知道这条日志属于哪个对象、这个对象在系统中处于什么位置、它的健康状态由什么定义、它出问题时还要顺着哪条路径继续看下去。

而灭火图这份知识图谱,恰好把"系统级上下文"这件事一次性补齐。 它给 Flashcat 的智能化能力带来了至少四类直接价值:

1. 给 AI 一个能"读懂"的系统视图 —— 智能根因分析

当某个核心功能 / 中间件 / 主机飘红时,FlashAI 不需要"猜"用户在意什么,而是直接以这张卡片为锚点,沿着知识图谱拿到:这个对象的健康量化指标当前曲线、配套的告警事件、相关的日志主题、相关的链路入口、上下游依赖对象的健康状态、最近的变更事件 ……

模型拿到的是结构化、有边界、有指向性的上下文,于是能输出 真正可用的根因判断和处理建议,而不是泛泛而谈的"看起来 CPU 有点高"。

2. 让"巡检"从抽样体检变成系统化体检 —— 智能巡检与巡检报告

有了知识图谱,“健康"不再只是一条条独立曲线,而是一个个有名有姓的 IT 对象的状态集合。FlashAI 可以:

  • 周期性扫描整张灭火图,对全系统对象做体检;
  • 对每个异常对象沿着知识图谱自动展开根因分析;
  • 把全部分析结论按"业务线 → 子系统 → 异常对象"组织成结构化的 巡检报告,并通过 Flashcat 配置的邮件通道自动分发给责任团队。

整个过程不依赖人去拼凑信息 —— 因为这张图本身就已经把信息组织好了。

3. 让 AI Agent 真正能"动手” —— 自然语言操控平台

当你在 FlashAI 的对话框里说"帮我把订单业务线的核心功能、依赖的中间件、主机和告警都搭起来",AI Agent 能够:

  • 从数据源里找到相应的观测对象类型,与对应的卡片模板;
  • 自动创建卡片规则、下钻规则、告警规则;
  • 把已集成的数据源精确绑定到对应观测对象;
  • 几分钟内为一个新业务搭起 可下钻、可告警、可被 AI 持续巡检 的立体观测视图。

可观测性数据建设的结果可以持续、自动、智能的沉淀到知识图谱,并被 AI 有效的使用起来。

4. 让稳定性保障形成闭环 —— 发现 → 分析 → 处置

灭火图把"发现 / 分析"的上下文沉淀成灭火图的结构化数据,再配合 FlashAI 与任务通道(带风险分级与确认门禁),就具备了走向闭环的条件:

告警发生 → AI 在知识图谱上自动定位异常对象 → 自动展开根因分析 → 生成结构化结论与建议 → 触发预审过的自愈脚本或人工确认操作 → 检查操作的效果 → 输出过程报告

这不是某一个智能化点,而是 以知识图谱为骨架的整套智能化稳定性保障流水线

小结

价值视角 没有知识图谱的智能化 灭火图(知识图谱)+ FlashAI / AI Agent
故障分析 单点解读、容易跑偏 系统级根因分析,结论可解释、可复核
巡检体检 凭经验抽样、易漏 全量对象自动体检,按业务线结构化输出
平台操作 仍需人在多个页面来回点 AI Agent 用自然语言端到端搭建与配置
稳定性保障 流程靠人串联 发现 → 分析 → 处置闭环自动驱动

可观测性的 AI-Ready 之路,本质就是"把系统知识图谱化"的过程。Flashcat 选择的路径是:用灭火图,把这张图谱真正建起来、用起来。

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云