一张图掌握 IT 系统健康状态 - Flashcat 灭火图

核心要点

Flashcat 灭火图用一张图呈现 IT 系统各部分的健康状态，帮助团队在故障时快速收敛影响范围。
灭火图的基本单元不是单条指标，而是接口、微服务、组件、存储、网络、DNS 等 IT 对象。
每张卡片通过核心健康指标和异常条件判断飘绿或飘红，异常状态可以沿层级向上透传。
灭火图通过下钻规则把异常对象关联到指标、日志、链路、事件、仪表盘和告警，形成排障路径。
从 AI 角度看，灭火图是一份动态、机器可读的 IT 系统知识图谱，是 FlashAI 做智能根因分析和巡检的基础。

服务出现故障时，有没有一张图能够呈现出全系统各部分的健康状态，以便技术团队追查问题时快速找准范围，也方便经理、老板指挥故障处理时，心中有数，有的放矢？

这是很多在企业中负责系统服务稳定性的朋友，给我们提的一个高频需求和想法。

Flashcat 灭火图就是这样一个产品，用一张图掌握在线系统的健康状态。而当我们沿着"立体观测视图"的思路一路建设下来后会发现：灭火图本质上是 IT 系统的一份"知识图谱"，它不仅服务于人，也服务于 AI —— 这正是 Flashcat 实现智能化稳定性保障最关键的一块数据基座。

灭火图首页 - 着火点一目了然

灭火图是一个什么样的产品？

Flashcat 灭火图是一个面向系统稳定性问题排查和故障定位场景的平台，有以下特点：

① 一个立体的观测视图，看清系统的每个部分

灭火图有"首页"和"详情页"两个基本页面，首页可以下钻到详情页，首页和详情页内又可以进一步划分"层级"，反映 IT 系统的层级关系。

灭火图首页

灭火图详情页

灭火图的透视模式，呈现形式类似大家熟悉的"服务树"。

比如可以组织出这样一个常见的系统层级：业务线 -> 子系统 -> 核心功能。在这个层级中，最末端的层级可能有一张或多张卡片，每张卡片是一个"核心功能"。

透视模式效果如下：

灭火图透视模式 - 展开功能列表

灭火图透视模式 - 展开 App 列表

② 从观测"数据"到观测"对象"

不同于 Grafana 主要平铺的展示观测数据，灭火图是一个立体的视图，类似"服务树"。只是这颗树的节点上挂载的对象不再只是"机器资源"，而是 IT 系统所有物理的和逻辑的 IT 对象或 IT 资产。如系统的功能接口、微服务、组件、存储、网络、DNS、系统、子系统等。

查问题时，先把问题范围收敛到 IT 对象，而非相互独立的指标，再从对象去看其相关的各维度指标，这样才更有利于从相关性中找出问题的原因。

灭火图提供了 IT “对象"发现和创建的规则，可以从观测系统中自动发现 IT 对象，并自定义这些 IT 对象的呈现层级和视角。

③ 系统中 IT 对象正常 / 异常一目了然

每张灭火图卡片（IT 对象）都会有正常（飘绿）或异常（飘红）两种健康状态。

健康状态可以层层透传，只要下层对象出现飘红，上层对象就一定飘红，这样，所有底层 IT 对象的异常状态最终都被汇总到了首页。在首页就可以一览系统各个部分的健康状态，快速确定异常的范围。

④ 准确量化 IT 对象的健康状态

灭火图是如何定义一个 IT 对象的健康状态呢？

灭火图会为每张底层卡片（IT 对象）配套用于量化其健康度的核心指标及异常条件。一旦异常条件达成，对应的卡片即飘红，这个飘红状态会透传到上层的每一个层级直到首页。

如底层的 IT 对象是核心功能，灭火图配套的健康度量化指标是该功能对应的三大黄金指标：流量、成功率、响应时间，异常条件则可能是成功率 < 99%。如底层的 IT 对象是 MySQL 实例，灭火图配套的健康度量化指标是：实例存活状态、实例查询数量、实例慢查询数量、实例 CPU 使用率 …，异常条件则可能是实例存活状态 == 0 || 实例慢查询数量 > 1。

每类 IT 对象都有不同的健康状态量化指标，灭火图内积累了常见 IT 对象的健康量化指标模板，可快速应用。

⑤ 关联问题排查路径，联动各维度观测数据

灭火图首页上观察到 IT 系统的异常点后，可以层层下钻找到具体的异常对象，并查看异常对象配套的健康状态量化指标趋势和异常条件。同时，为进一步追查问题根因，可从异常的指标趋势上下钻该 IT 对象相关的日志、链路、事件、仪表盘等等维度的观测数据，即时获得问题排查路径上所需的所有数据。

灭火图提供了关联 IT 对象和相应观测数据的映射规则，可以基于灭火图实现各维度观测数据的串联融合，共同加速问题的排查定位，避免用户在各类观测系统间来回切换，也降低了问题排查的门槛。

总结

总结来讲，在问题排查的场景中，灭火图有以下功能和效果，加速了问题排查定位的过程：

将 IT 系统及其层级、健康状态，用立体的方式呈现到用户面前
IT 系统每部分的健康状态一目了然，快速确定问题范围和层级
从异常点下钻，直达异常的 IT 对象
分析查看异常对象配套的健康量化指标、趋势和异常点
下钻异常对象相关的各维度数据，快速分析异常原因

灭火图下钻追查 - 联动各维度数据

灭火图下钻追查 - 示意

灭火图为什么是 IT 系统的知识图谱

把灭火图的几个能力放到一起重新审视：它在每天运行的，恰好就是一份"活的、可执行的 IT 系统知识图谱”。

知识图谱通常由"实体（Entity） + 关系（Relation） + 属性（Attribute）“构成，并强调结构化、可推理、可演进。把灭火图按这套语言拆开来看，对应得非常工整：

知识图谱要素	灭火图中的对应	说明
实体（Entity）	IT 对象 / 灭火图卡片	业务线、子系统、核心功能、微服务、容器、主机、MySQL/Redis 等中间件实例、网络设备、DNS、专线……
关系（Relation）—— 层级关系	灭火图首页 → 详情页 → 层级 → 卡片	“业务线包含哪些子系统、子系统包含哪些核心功能、核心功能依赖哪些微服务”，整张图就是这种从属与依赖关系的显式表达
关系（Relation）—— 关联关系	卡片 ↔ 指标 / 日志 / 链路 / 事件 / 仪表盘 / 告警的下钻映射	每个 IT 对象到底应该看哪条曲线、哪张表的日志、哪个 trace 入口、哪些告警规则、哪些事件源，全部以规则的形式被显式描述
属性（Attribute）	健康量化指标 + 异常条件	“三大黄金指标 + 成功率 < 99%"、“MySQL 慢查询数 > 1”…… 给每类对象一份可被代码 / 模型直接读懂的"健康度定义”
状态（State）	卡片实时的飘绿 / 飘红 + 层级透传	整张图谱不是静态文档，而是每分每秒都在更新的"系统状态快照”
可演进（Evolution）	卡片规则 / 下钻规则 / 告警规则 + 模板中心	系统迭代时，规则与模板自动生成新对象、自动维护关系，随业务一起长大

换句话说：

灭火图 = “IT 系统中有哪些对象 + 这些对象之间是什么关系 + 每个对象用什么指标定义健康 + 每个对象出问题应该看哪些观测数据 + 此刻它们各自正不正常”

这就是一份 IT 系统完整的、动态的、机器可读的知识图谱。

很多团队过去用 CMDB 描述资产、用 Wiki 描述架构、用脑图描述依赖、用各种 Dashboard 描述指标，但它们彼此割裂、容易过时，更不能"被运行"。灭火图把这些零散的知识 统一到一张可执行的图上，并且与观测数据强绑定 —— 这是它对内对外都最稀缺的价值。

智能化保障：从知识图谱到 AI 驱动运维

为什么我们一定要强调"知识图谱"这件事？因为它直接决定了 AI 在可观测性场景下能走多远。

在 AI 与可观测性结合的实践中，业界普遍面临三个根本问题：

AI 如何理解你的系统？

AI 如何无障碍地读取你的观测数据？

AI 如何把分析结论真正落到运维动作上，形成闭环？

很多产品做"AI + 可观测"，给一段日志解读、给一组告警聚类，能力停留在 单点辅助 上，原因正是缺乏系统级的结构化上下文 —— 模型不知道这条日志属于哪个对象、这个对象在系统中处于什么位置、它的健康状态由什么定义、它出问题时还要顺着哪条路径继续看下去。

而灭火图这份知识图谱，恰好把"系统级上下文"这件事一次性补齐。 它给 Flashcat 的智能化能力带来了至少四类直接价值：

1. 给 AI 一个能"读懂"的系统视图 —— 智能根因分析

当某个核心功能 / 中间件 / 主机飘红时，FlashAI 不需要"猜"用户在意什么，而是直接以这张卡片为锚点，沿着知识图谱拿到：这个对象的健康量化指标当前曲线、配套的告警事件、相关的日志主题、相关的链路入口、上下游依赖对象的健康状态、最近的变更事件 ……

模型拿到的是结构化、有边界、有指向性的上下文，于是能输出 真正可用的根因判断和处理建议，而不是泛泛而谈的"看起来 CPU 有点高"。

2. 让"巡检"从抽样体检变成系统化体检 —— 智能巡检与巡检报告

有了知识图谱，“健康"不再只是一条条独立曲线，而是一个个有名有姓的 IT 对象的状态集合。FlashAI 可以：

周期性扫描整张灭火图，对全系统对象做体检；
对每个异常对象沿着知识图谱自动展开根因分析；
把全部分析结论按"业务线 → 子系统 → 异常对象"组织成结构化的 巡检报告，并通过 Flashcat 配置的邮件通道自动分发给责任团队。

整个过程不依赖人去拼凑信息 —— 因为这张图本身就已经把信息组织好了。

3. 让 AI Agent 真正能"动手” —— 自然语言操控平台

当你在 FlashAI 的对话框里说"帮我把订单业务线的核心功能、依赖的中间件、主机和告警都搭起来"，AI Agent 能够：

从数据源里找到相应的观测对象类型，与对应的卡片模板；
自动创建卡片规则、下钻规则、告警规则；
把已集成的数据源精确绑定到对应观测对象；
几分钟内为一个新业务搭起 可下钻、可告警、可被 AI 持续巡检 的立体观测视图。

可观测性数据建设的结果可以持续、自动、智能的沉淀到知识图谱，并被 AI 有效的使用起来。

4. 让稳定性保障形成闭环 —— 发现 → 分析 → 处置

灭火图把"发现 / 分析"的上下文沉淀成灭火图的结构化数据，再配合 FlashAI 与任务通道（带风险分级与确认门禁），就具备了走向闭环的条件：

告警发生 → AI 在知识图谱上自动定位异常对象 → 自动展开根因分析 → 生成结构化结论与建议 → 触发预审过的自愈脚本或人工确认操作 → 检查操作的效果 → 输出过程报告。

这不是某一个智能化点，而是 以知识图谱为骨架的整套智能化稳定性保障流水线。

小结

价值视角	没有知识图谱的智能化	灭火图（知识图谱）+ FlashAI / AI Agent
故障分析	单点解读、容易跑偏	系统级根因分析，结论可解释、可复核
巡检体检	凭经验抽样、易漏	全量对象自动体检，按业务线结构化输出
平台操作	仍需人在多个页面来回点	AI Agent 用自然语言端到端搭建与配置
稳定性保障	流程靠人串联	发现 → 分析 → 处置闭环自动驱动