AI 和可观测性到底如何整合？

AI 和可观测性整合，最值得优先投入的方向不是让大模型泛泛聊天，而是让 AI 在足够完整、足够相关的观测上下文中辅助故障定位。

核心要点

可观测性最关键的生产场景之一是故障定位，AI 应该围绕这个场景设计。
直接把全部指标、日志、链路和事件丢给 AI 分析，数据量、成本和时效性都不现实。
更可落地的方式，是先由告警系统发现问题，再由平台筛选与故障强相关的数据交给 AI。
数据关联能力决定 AI 分析质量，单点的 PromQL 生成、日志总结和告警建议只是局部增强。
Flashcat 的实践思路是：集成大模型、接入多类数据源、用灭火图沉淀关联关系，再让 AI 参与分析。

这一波 AI 浪潮跟以往都不同，各个行业都看到了新的可能性，都想把 AI 引入自己的场景。监控和可观测性领域也有不少尝试，例如：

通过 AI 翻译人类语言生成 SQL 或 Promql
把告警事件扔给 AI，让 AI 生成泛泛的建议
把一批日志或 Trace Span 扔给 AI，让 AI 做 Summary 或异常甄别

这些能力可以放到开源夜莺项目（Nightingale）里，作为功能增强确实会让产品体验更好。但它们大多是面向“点”的能力：帮人写查询、解释一段日志、总结一个告警。真正值得讨论的是，AI 能不能面向完整故障场景，参与从发现问题到定位根因的过程。

在我们的夜莺商业版（即 Flashcat）里，近期做了一个尝试，这里把思路分享给大家，欢迎跟我们一起交流：https://flashcat.cloud/contact

AI 与可观测性的核心整合思路

监控和可观测性可以服务很多目标，比如容量规划、性能优化、成本分析和安全审计。但对大部分 SRE、DevOps 和研发团队来说，最紧急、最刚需的场景仍然是故障定位。

因此，一个直接的方向是：让 AI 帮助团队做故障定位。

理想情况下，平台可以把最近几个小时的可观测性数据全部交给 AI，让它自动判断有哪些故障、影响面多大、根因在哪里。但在生产环境中，这个方案很难直接落地：指标、日志、链路和事件的数据量巨大，分析成本高，等待时间长，等结果出来时可能已经错过止损窗口。

更务实的做法是分工：

故障发现继续交给成熟的告警引擎。
AI 不负责从海量数据中盲找问题，而是围绕已经发生的告警做分析。
可观测性平台负责筛选与故障相关的数据，把关联性强、上下文完整的数据交给 AI。

告警引擎可以覆盖阈值告警、同环比告警、数据缺失告警、Holt-Winters 等统计算法告警。AI 要发挥作用，关键不是替代这些能力，而是在告警出现后，基于更好的上下文帮助人缩短排查路径。

所以，AI + 可观测性落地的关键可以概括为一句话：

把跟故障有关联性且较为完备的数据交给 AI。

具体应该怎么落地？我以 Flashcat 举例，把整个流程给你串一遍，希望对你的思路有所帮助。

落地步骤一：集成大模型

要做智能可观测性平台，第一步是把大模型能力接入进来，让平台知道如何调用大模型 API，并把分析任务、上下文和输出结果组织成稳定的流程。

可观测性集成大模型

这一步解决的是“能不能调用 AI”的问题，但它不是最终价值。真正的难点在后面：给 AI 什么数据，以及如何控制分析范围。

落地步骤二：集成可观测性数据

监控和可观测性数据通常来自很多系统。很多企业已经长期建设了多套工具，例如：

指标数据可能来自 Zabbix、Prometheus、云监控
日志数据可能来自 Elastic、ClickHouse、Splunk
链路数据可能来自 Arms、Jaeger、Skywalking

AI 要分析故障，不能只看某一类数据。指标能看到异常趋势，日志能提供错误细节，链路能呈现调用路径，事件能解释变更背景。数据源越割裂，AI 越容易给出泛泛建议；上下文越完整，AI 越有机会给出有用判断。

可观测性数据源

如果企业的数据不完备，就需要补齐采集和治理工作。这类工作往往是脏活累活：采集指标、日志、链路和事件，做标签增强，做数据 ETL，处理不同系统之间的命名和字段差异。但这些基础工作完成后，AI 分析、告警降噪和故障定位都会受益。

落地步骤三：构建数据关联并筛选上下文

即使数据已经接入，仍然不能把所有数据都交给 AI。可观测性平台还要回答一个更关键的问题：这次故障到底和哪些服务、接口、实例、日志、Span、事件有关？

采集和 Pipeline 过程中的标签可以提供一部分关联信息，但通常还不够。Flashcat 之前做的“灭火图”产品，恰好可以在这里起到作用。灭火图的核心价值，是把业务、服务、接口、依赖和观测数据组织起来，让平台知道哪些数据对故障定位更重要。

故障发生后，平台可以根据灭火图挑出相关对象和关键观测数据，再把这些数据作为上下文交给 AI。这样既减少了无关数据，也提高了分析结果的可解释性。

可观测性数据串联

大家可以参考这篇文章或 Google 关键字“快猫星云灭火图”了解相关设计思路，这里不再重复赘述。

落地步骤四：让 AI 介入故障分析

有了大模型接入、数据源集成和对象关联之后，AI 才真正适合上场。

例如某个核心接口故障，平台可以先定位到受影响的业务和服务，再把相关指标、日志、Span、事件等上下文交给 AI。AI 的任务不是凭空猜根因，而是沿着平台提供的关联路径逐步分析，并输出可追溯的判断。

AI分析效果

适合落地的边界

AI 与可观测性整合时，要警惕两个误区：

不要把 AI 当成新的告警引擎。成熟告警系统已经能发现很多已知异常，AI 更适合在告警之后辅助分析。
不要让 AI 面对一片数据海。没有对象模型、标签规范和下钻路径，AI 很容易输出通用建议。

更合理的边界是：可观测性平台负责收集、关联和筛选数据，AI 负责基于这些上下文做总结、对比、推理和解释。二者结合，才可能在生产环境里降低故障定位成本。

FAQ

Q1：AI 能直接替代 SRE 做故障定位吗？

A：不适合这样理解。更现实的定位是让 AI 辅助 SRE 分析相关数据、总结异常特征和缩短排查路径，最终判断仍需要结合团队经验和生产环境上下文。

Q2：为什么不能把所有可观测性数据直接交给 AI？

A：数据量太大，分析成本高，响应时间也不一定满足故障止损要求。生产环境更需要先筛选和故障强相关的数据，再让 AI 分析。

Q3：AI 分析可观测性数据的前提是什么？

A：至少需要三类基础：多数据源接入、统一标签或对象关联、明确的故障定位路径。缺少这些基础，AI 很难给出稳定、可解释的结果。

总结

AI 和可观测性的整合，不应该停留在写查询语句、总结日志、解释告警这些点状能力上。真正有价值的方向，是围绕故障定位这个核心场景，把告警、指标、日志、链路、事件和对象关系组织起来，让 AI 基于高相关度上下文参与分析。

简单说，AI 不是可观测性的替代品，而是建立在可观测性数据治理和关联能力之上的分析助手。底层数据越完整，关联关系越清楚，AI 才越可能在故障现场发挥实际价值。

AI 和可观测性到底如何整合？

核心要点

AI 与可观测性的核心整合思路

落地步骤一：集成大模型

落地步骤二：集成可观测性数据

落地步骤三：构建数据关联并筛选上下文

落地步骤四：让 AI 介入故障分析

适合落地的边界

FAQ

总结

继续看解决方案和产品对比

继续阅读

核心要点

AI 与可观测性的核心整合思路

落地步骤一：集成大模型

落地步骤二：集成可观测性数据

落地步骤三：构建数据关联并筛选上下文

落地步骤四：让 AI 介入故障分析

适合落地的边界

FAQ

总结

相关文章

继续看解决方案和产品对比

继续阅读