AI 和可观测性整合,最值得优先投入的方向不是让大模型泛泛聊天,而是让 AI 在足够完整、足够相关的观测上下文中辅助故障定位。
核心要点
- 可观测性最关键的生产场景之一是故障定位,AI 应该围绕这个场景设计。
- 直接把全部指标、日志、链路和事件丢给 AI 分析,数据量、成本和时效性都不现实。
- 更可落地的方式,是先由告警系统发现问题,再由平台筛选与故障强相关的数据交给 AI。
- 数据关联能力决定 AI 分析质量,单点的 PromQL 生成、日志总结和告警建议只是局部增强。
- Flashcat 的实践思路是:集成大模型、接入多类数据源、用灭火图沉淀关联关系,再让 AI 参与分析。
这一波 AI 浪潮跟以往都不同,各个行业都看到了新的可能性,都想把 AI 引入自己的场景。监控和可观测性领域也有不少尝试,例如:
- 通过 AI 翻译人类语言生成 SQL 或 Promql
- 把告警事件扔给 AI,让 AI 生成泛泛的建议
- 把一批日志或 Trace Span 扔给 AI,让 AI 做 Summary 或异常甄别
这些能力可以放到开源夜莺项目(Nightingale)里,作为功能增强确实会让产品体验更好。但它们大多是面向“点”的能力:帮人写查询、解释一段日志、总结一个告警。真正值得讨论的是,AI 能不能面向完整故障场景,参与从发现问题到定位根因的过程。
在我们的夜莺商业版(即 Flashcat)里,近期做了一个尝试,这里把思路分享给大家,欢迎跟我们一起交流:https://flashcat.cloud/contact
AI 与可观测性的核心整合思路
监控和可观测性可以服务很多目标,比如容量规划、性能优化、成本分析和安全审计。但对大部分 SRE、DevOps 和研发团队来说,最紧急、最刚需的场景仍然是故障定位。
因此,一个直接的方向是:让 AI 帮助团队做故障定位。
理想情况下,平台可以把最近几个小时的可观测性数据全部交给 AI,让它自动判断有哪些故障、影响面多大、根因在哪里。但在生产环境中,这个方案很难直接落地:指标、日志、链路和事件的数据量巨大,分析成本高,等待时间长,等结果出来时可能已经错过止损窗口。
更务实的做法是分工:
- 故障发现继续交给成熟的告警引擎。
- AI 不负责从海量数据中盲找问题,而是围绕已经发生的告警做分析。
- 可观测性平台负责筛选与故障相关的数据,把关联性强、上下文完整的数据交给 AI。
告警引擎可以覆盖阈值告警、同环比告警、数据缺失告警、Holt-Winters 等统计算法告警。AI 要发挥作用,关键不是替代这些能力,而是在告警出现后,基于更好的上下文帮助人缩短排查路径。
所以,AI + 可观测性落地的关键可以概括为一句话:
把跟故障有关联性且较为完备的数据交给 AI。
具体应该怎么落地?我以 Flashcat 举例,把整个流程给你串一遍,希望对你的思路有所帮助。
落地步骤一:集成大模型
要做智能可观测性平台,第一步是把大模型能力接入进来,让平台知道如何调用大模型 API,并把分析任务、上下文和输出结果组织成稳定的流程。

这一步解决的是“能不能调用 AI”的问题,但它不是最终价值。真正的难点在后面:给 AI 什么数据,以及如何控制分析范围。
落地步骤二:集成可观测性数据
监控和可观测性数据通常来自很多系统。很多企业已经长期建设了多套工具,例如:
- 指标数据可能来自 Zabbix、Prometheus、云监控
- 日志数据可能来自 Elastic、ClickHouse、Splunk
- 链路数据可能来自 Arms、Jaeger、Skywalking
AI 要分析故障,不能只看某一类数据。指标能看到异常趋势,日志能提供错误细节,链路能呈现调用路径,事件能解释变更背景。数据源越割裂,AI 越容易给出泛泛建议;上下文越完整,AI 越有机会给出有用判断。

如果企业的数据不完备,就需要补齐采集和治理工作。这类工作往往是脏活累活:采集指标、日志、链路和事件,做标签增强,做数据 ETL,处理不同系统之间的命名和字段差异。但这些基础工作完成后,AI 分析、告警降噪和故障定位都会受益。
落地步骤三:构建数据关联并筛选上下文
即使数据已经接入,仍然不能把所有数据都交给 AI。可观测性平台还要回答一个更关键的问题:这次故障到底和哪些服务、接口、实例、日志、Span、事件有关?
采集和 Pipeline 过程中的标签可以提供一部分关联信息,但通常还不够。Flashcat 之前做的“灭火图”产品,恰好可以在这里起到作用。灭火图的核心价值,是把业务、服务、接口、依赖和观测数据组织起来,让平台知道哪些数据对故障定位更重要。
故障发生后,平台可以根据灭火图挑出相关对象和关键观测数据,再把这些数据作为上下文交给 AI。这样既减少了无关数据,也提高了分析结果的可解释性。

大家可以参考 这篇文章 或 Google 关键字“快猫星云 灭火图”了解相关设计思路,这里不再重复赘述。
落地步骤四:让 AI 介入故障分析
有了大模型接入、数据源集成和对象关联之后,AI 才真正适合上场。
例如某个核心接口故障,平台可以先定位到受影响的业务和服务,再把相关指标、日志、Span、事件等上下文交给 AI。AI 的任务不是凭空猜根因,而是沿着平台提供的关联路径逐步分析,并输出可追溯的判断。

适合落地的边界
AI 与可观测性整合时,要警惕两个误区:
- 不要把 AI 当成新的告警引擎。成熟告警系统已经能发现很多已知异常,AI 更适合在告警之后辅助分析。
- 不要让 AI 面对一片数据海。没有对象模型、标签规范和下钻路径,AI 很容易输出通用建议。
更合理的边界是:可观测性平台负责收集、关联和筛选数据,AI 负责基于这些上下文做总结、对比、推理和解释。二者结合,才可能在生产环境里降低故障定位成本。
FAQ
Q1:AI 能直接替代 SRE 做故障定位吗?
A:不适合这样理解。更现实的定位是让 AI 辅助 SRE 分析相关数据、总结异常特征和缩短排查路径,最终判断仍需要结合团队经验和生产环境上下文。
Q2:为什么不能把所有可观测性数据直接交给 AI?
A:数据量太大,分析成本高,响应时间也不一定满足故障止损要求。生产环境更需要先筛选和故障强相关的数据,再让 AI 分析。
Q3:AI 分析可观测性数据的前提是什么?
A:至少需要三类基础:多数据源接入、统一标签或对象关联、明确的故障定位路径。缺少这些基础,AI 很难给出稳定、可解释的结果。
总结
AI 和可观测性的整合,不应该停留在写查询语句、总结日志、解释告警这些点状能力上。真正有价值的方向,是围绕故障定位这个核心场景,把告警、指标、日志、链路、事件和对象关系组织起来,让 AI 基于高相关度上下文参与分析。
简单说,AI 不是可观测性的替代品,而是建立在可观测性数据治理和关联能力之上的分析助手。底层数据越完整,关联关系越清楚,AI 才越可能在故障现场发挥实际价值。