老虎如何吃下天 - 可观测性加大模型

Flashcat技术 2025-04-24 10:00:00

故障根因定位的自动化和智能化一直是可观测性行业的重点课题,但效果一直难孚众望。

大模型出现后,奇点终于临近,利用大模型实现故障根因定位的真正智能化有了极大的可能。

但面对海量的观测数据和复杂的IT环境,如何有效的连接观测系统和大模型,产生智能化的效果,总有一种老虎吃天,无从下嘴的感觉。

把海量的指标、日志、链路、事件等可观测数据一股脑的提交给大模型去做分析,无论从计算成本、物理传输效率都是不现实的。

让大模型自己钻到观测数据的海洋里,自行学习、自行分析是不是有可能呢?

如果IT环境各维度的观测数据都是既标准又规范的,以大模型现在的智能,或许不是不可能。

但现实情况是,各企业的观测系统往往各自为阵,数据都是割裂的,标准也不统一。能提前制定好各维度数据的标准,并按数据标准和一体化的最佳实践把观测系统从零建设起来,这样的企业目前几乎不存在。

因此,基于现实的情况,我们需要为大模型介入可观测做一些准备和治理工作,以便为大模型提供精准、有效的数据和通道,大模型才能高效输出有价值的结果。

总体看,利用大模型来增强根因定位,需要解决两个重点问题:

  • 如何让大模型理解你的系统
  • 如何让大模型读取你的数据

有了这两个输入,加上大模型的自主分析和推理能力,根因定位的智能化有了可能。

如何让大模型理解你的系统?

答案是元信息知识图谱,包括大模型所处环境里一个个物理的和逻辑的IT对象及其描述,以及这些对象间的层次、关联等信息。

有了这些信息,大模型基本就能够理解你的系统了,并且具备了精准分析数据的条件。

如何让大模型获取你的数据?

打通并标准化所有观测数据的查询通道,把通道的数据查询能力提供给大模型。大模型知道要查询指标数据时该从哪里查、如何查。同理,日志、链路、事件等数据也一样。

Flashcat+AI 智能化定位实践

基于以上思考,我们发现 Flashcat 并没有有意为解决这两个问题而设计,却一直在解决这两个问题的路径上努力。

Flashcat 是一个从数据到平台到场景的一体化可观测性产品,基于开源夜莺实现。Flashcat 的灭火图系统既是为加速故障定位设计。

灭火图能够用一张图掌握全系统的健康状态,快速收敛故障的范围,引导用户从故障点层层下钻,联动各维度的观测数据,加速完成根因分析的过程。

灭火图的基本设计理念是拆解并观测线上系统中的IT对象(包括物理的和逻辑的对象或资产,如接口、微服务、组件、平台、网络、DNS等),同时为这些对象配套量化其健康度的指标,并关联相关的指标、日志、链路、仪表盘、事件等等观测数据。形成了一个立体的服务“元信息”及其“知识图谱”

灭火图介绍详见 -> 一张图掌握系统健康状态

灭火图首页

Flashcat 的另一个特点是数据集成能力。灭火图的数据和关联可能来自不同的观测数据源,Flashcat 针对常见的开源和公有云观测系统都做了集成。

Flashcat 集成的部分观测数据源

以下是Flashcat灭火图+AI大模型实现精准故障定位的案例:

在Flashcat灭火图上通过飘红快速找到异常对象(订单提交接口)-> 触发AI分析 -> AI分析异常对象关联的各维度观测数据后,得出了精准的分析结论:Redis服务不可用,及相关详情。

Flashcat+AI精准输出根因结论

实现上,Flashcat内会由一个内置的大模型来维护故障分析的知识库、数据格式、结构化信息等。最终的分析则会提交给用户通过配置指定的大模型接口,如私有化部署的deepseek或公有云上的大模型。

Flashcat 将基于良好的数据基础,结合AI做更多的智能化实现,如大面积故障时的整体故障特征智能分析、多个对象的并行和综合分析,以辅助用户快速决策服务止损的方案。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat