最佳实践：老虎如何吃下天 - 可观测性加大模型

Flashcat技术 2025-04-24 10:00:00

故障根因定位的自动化和智能化一直是可观测性行业的重点课题，但效果一直难孚众望。

大模型出现后，奇点终于临近，利用大模型实现故障根因定位的真正智能化有了极大的可能。

但面对海量的观测数据和复杂的IT环境，如何有效的连接观测系统和大模型，产生智能化的效果，总有一种老虎吃天，无从下嘴的感觉。

把海量的指标、日志、链路、事件等可观测数据一股脑的提交给大模型去做分析，无论从计算成本、物理传输效率都是不现实的。

让大模型自己钻到观测数据的海洋里，自行学习、自行分析是不是有可能呢？

如果IT环境各维度的观测数据都是既标准又规范的，以大模型现在的智能，或许不是不可能。

但现实情况是，各企业的观测系统往往各自为阵，数据都是割裂的，标准也不统一。能提前制定好各维度数据的标准，并按数据标准和一体化的最佳实践把观测系统从零建设起来，这样的企业目前几乎不存在。

因此，基于现实的情况，我们需要为大模型介入可观测做一些准备和治理工作，以便为大模型提供精准、有效的数据和通道，大模型才能高效输出有价值的结果。

总体看，利用大模型来增强根因定位，需要解决两个重点问题：

有了这两个输入，加上大模型的自主分析和推理能力，根因定位的智能化有了可能。

如何让大模型理解你的系统？

答案是元信息和知识图谱，包括大模型所处环境里一个个物理的和逻辑的IT对象及其描述，以及这些对象间的层次、关联等信息。

有了这些信息，大模型基本就能够理解你的系统了，并且具备了精准分析数据的条件。

打通并标准化所有观测数据的查询通道，把通道的数据查询能力提供给大模型。大模型知道要查询指标数据时该从哪里查、如何查。同理，日志、链路、事件等数据也一样。

基于以上思考，我们发现 Flashcat 并没有有意为解决这两个问题而设计，却一直在解决这两个问题的路径上努力。

Flashcat 是一个从数据到平台到场景的一体化可观测性产品，基于开源夜莺实现。Flashcat 的灭火图系统既是为加速故障定位设计。

灭火图能够用一张图掌握全系统的健康状态，快速收敛故障的范围，引导用户从故障点层层下钻，联动各维度的观测数据，加速完成根因分析的过程。

灭火图的基本设计理念是拆解并观测线上系统中的IT对象（包括物理的和逻辑的对象或资产，如接口、微服务、组件、平台、网络、DNS等），同时为这些对象配套量化其健康度的指标，并关联相关的指标、日志、链路、仪表盘、事件等等观测数据。形成了一个立体的服务“元信息”及其“知识图谱”。

灭火图首页

Flashcat 的另一个特点是数据集成能力。灭火图的数据和关联可能来自不同的观测数据源，Flashcat 针对常见的开源和公有云观测系统都做了集成。

Flashcat 集成的部分观测数据源

以下是Flashcat灭火图+AI大模型实现精准故障定位的案例：

在Flashcat灭火图上通过飘红快速找到异常对象（订单提交接口）-> 触发AI分析 -> AI分析异常对象关联的各维度观测数据后，得出了精准的分析结论：Redis服务不可用，及相关详情。

Flashcat+AI精准输出根因结论

实现上，Flashcat内会由一个内置的大模型来维护故障分析的知识库、数据格式、结构化信息等。最终的分析则会提交给用户通过配置指定的大模型接口，如私有化部署的deepseek或公有云上的大模型。

Flashcat 将基于良好的数据基础，结合AI做更多的智能化实现，如大面积故障时的整体故障特征智能分析、多个对象的并行和综合分析，以辅助用户快速决策服务止损的方案。