Dynatrace 的 AI RCA 做对了什么

本文基于 Dynatrace 官方公开资料,拆解其 AI RCA 如何通过统一数据底座、实时拓扑、事件归并、因果分析和 Problem 对象构建根因分析能力,并总结对可观测性产品设计的启发。

作者 技术调研

Dynatrace AI RCA:从告警风暴到因果问题图

Dynatrace 的 AI RCA 做对了什么

AI 正在重新定义可观测性产品,尤其是 RCA 这条链路。

过去几年,很多团队已经习惯了这样的排障路径:先收到一串告警,再去翻指标、日志、Trace、变更记录,最后依靠经验把问题拼起来。随着大模型和 Agent 的出现,行业里很自然地出现了一个新期待: 能不能让系统直接告诉我们根因是什么,甚至直接把故障处理掉?

但如果认真看一圈市面上的产品,会发现一个很现实的问题: 很多所谓的 AI RCA,更多是在原有告警台上叠加总结、问答和报告能力,真正涉及根因判断、证据归并和影响分析的能力并没有被重构。

Dynatrace 值得研究,恰恰是因为它公开呈现出来的路线并不是“先做一个会聊天的运维助手”,而是先把 RCA 变成一个由统一数据、实时拓扑、因果分析和问题对象驱动的系统,再在上层叠加自然语言交互与自动化。

这篇文章基于 Dynatrace 官方公开资料,尝试回答三个问题:

  1. Dynatrace 的 AI RCA 到底是怎么组织起来的。
  2. 它与常见的“AI 告警助手”思路有什么本质区别。
  3. 对可观测性产品设计来说,它提供了哪些有参考价值的方法论。

一、先看结论:Dynatrace 的重点不是聊天,而是因果型 RCA 引擎

如果只看产品宣传,很容易把注意力放在 Davis AI、Copilot、自动化工作流这些更容易被感知的能力上。但从 Dynatrace 文档的组织方式看,它更强调的是另一条主线:

  1. 把日志、指标、Trace、事件等数据放到统一的数据底座里。
  2. 建立持续更新的实时依赖拓扑。
  3. 对跨源事件做标准化、聚合、去重和问题化。
  4. 在因果拓扑上做根因识别、影响分析和优先级判断。
  5. 最后才用自然语言、工作流和自动化去承接结果。

这条主线透露出一个很重要的产品判断:

AI RCA 的核心,不是让模型把异常“说清楚”,而是让系统把根因“算明白”。

Dynatrace 在文档中频繁使用 deterministic、causation-based、topology context、fault tree analysis 这类表述。它想强调的不是“模型很聪明”,而是 RCA 需要建立在可验证的上下文和因果结构上,而不能只靠时间相关性或单点信号。

这也是它和很多“告警摘要型 AI”之间最根本的区别。

二、Dynatrace 的 AI RCA 是怎样分层设计的

从公开资料来看,Dynatrace 的 RCA 体系大致可以拆成五层。

1. 统一数据底座:Grail

Dynatrace 将 Grail 定义为面向可观测性数据的数据湖仓,用来统一承载日志、指标、Trace、事件等数据。这个定义本身并不新鲜,但真正值得注意的是它强调“所有数据在一个实时模型中互相关联”。

这意味着 RCA 分析并不是在多个工具之间临时拼接数据,而是在同一个数据平面上完成。这样的设计对 RCA 至少有三点价值:

  1. 分析过程不必在日志系统、APM 系统、事件系统之间来回跳转。
  2. 根因分析和影响分析可以使用一致的数据上下文。
  3. 上层自动化和 Copilot 可以直接复用已经建立好的问题对象和证据链。

换句话说,Dynatrace 并不是把大模型当作“跨系统拼接器”,而是先把底层数据统一,再让 AI 基于统一上下文工作。

2. 实时拓扑模型:Smartscape

第二层是 Smartscape,也就是 Dynatrace 的实时拓扑与依赖关系模型。它不仅展示服务之间的调用关系,还覆盖应用、服务、进程、主机、数据中心等不同层级,并持续更新横向和纵向依赖。

这层能力之所以重要,是因为它让 RCA 不再只是“看到了哪些异常”,而是能够回答“异常是如何传播的”。

在 RCA 场景下,拓扑模型至少承担四个角色:

  1. 区分根因节点与受影响节点。
  2. 表达异常沿调用链和堆栈层级的传播路径。
  3. 计算 blast radius,也就是影响范围。
  4. 将变更、部署、配置和基础设施状态映射到同一张问题图里。

这背后的方法论非常清楚:

RCA 的主视图不该只是异常时间线,而应该是一张可推理的因果关系图。

3. 事件标准化、聚合和去重

Dynatrace 对事件处理流程的拆解很值得关注。根据文档,它会经历 ingestion、normalization、topology creation、aggregation、deduplication 等步骤。

这个顺序看起来偏工程实现,但恰恰揭示了 RCA 的关键前提。

如果没有事件标准化,不同数据源之间很难形成稳定的相关性;如果没有实体映射,事件就无法落到统一拓扑上;如果没有聚合和去重,最后用户看到的仍然只是一场更大的告警风暴。

Dynatrace 在去重上强调三个维度:

  1. 同一实体、同一语义事件的去重。
  2. 时间窗口内相似事件的合并。
  3. 因果拓扑上的问题归并。

这实际上是在把“事件噪音治理”前置成 RCA 的一部分,而不是把所有原始异常都直接丢给上层 AI 去解释。

4. causal AI:在因果拓扑上做根因排序

真正进入 RCA 核心的是 causal AI。根据官方说明,Dynatrace 会遍历受影响拓扑中的实体,评估事件及其严重性,并按需触发指标变点检测,补全没有被显式告警覆盖到的异常证据。

这里有两个细节值得特别注意。

第一,它并不是只消费已经触发的事件,而是会主动在受影响实体上寻找额外异常,这意味着 RCA 引擎不仅在解释问题,也在补齐问题。

第二,它最终不是给出一组模糊相关项,而是会对 root cause contributors 做排序,给出更明确的根因候选。

这代表 Dynatrace 的 RCA 并不止步于“这些事情可能有关”,而是在尝试给出一个更可操作的判断结果。对于一线排障来说,这个差异非常关键,因为用户真正需要的是优先级明确的调查起点,而不是更长的相关事件列表。

5. Problem 作为一等对象

Dynatrace 对 incident、event、problem 做了明确区分。event 是单个异常或信息信号,incident 是环境中的异常情况,而 problem 是经过因果分析和影响分析之后形成的操作对象。

这套对象模型看似是概念定义,实际对产品体验影响很大。

一旦 problem 成为系统主对象,RCA 就不再围绕单条告警展开,而是围绕一件跨组件、跨层级、可持续更新的问题展开。这样做的价值在于:

  1. 用户处理的是问题,而不是几十条分散事件。
  2. 系统可以持续补充根因、影响范围、变更证据和建议动作。
  3. 通知、工单、升级和自动化都能围绕同一个对象闭环。

Dynatrace 还设计了 Processing 状态,用几分钟时间完成问题合并和分析,以减少重复问题和误报。这种做法并不追求绝对即时,而是优先保证问题对象的质量。

三、它和常见 AI RCA 思路的差异在哪里

如果把今天市面上常见的做法和 Dynatrace 对比,大概能看到两种完全不同的路线。

第一种路线是“先有告警,再加 AI 助手”。这种方式通常上线更快,也更容易做出直观效果,比如:

  1. 汇总日志和告警信息。
  2. 回答一些排障问答。
  3. 生成事件摘要和处置建议。

这类能力并非没有价值,但它们往往建立在既有系统之上,更多是信息组织层的增强。

Dynatrace 走的更像第二种路线,也就是“先重构 RCA 引擎,再叠加 AI 交互”。在这条路线里,Copilot 和 Agent 并不是起点,而是建立在统一数据、拓扑模型、问题对象和因果分析之上的表达层与执行层。

这两种思路最大的差异,不在界面,而在产品重心:

  1. 前者更关注怎么把已有信息讲给用户听。
  2. 后者更关注系统能否先形成一个可靠的问题判断。

从公开资料来看,Dynatrace 更接近后者。

四、Dynatrace 这套方法最值得借鉴的几个点

1. 把“上下文”当成系统资产,而不是提示词素材

很多 AI 场景都在谈上下文,但在 RCA 里,上下文不是一段 prompt 能解决的事情。Dynatrace 的做法更像是把上下文做成可计算、可关联、可复用的系统资产,包括统一事件语义、实体关系、调用依赖、变更记录和业务影响。

这对任何做 AI RCA 的团队都是一个提醒:如果上下文本身并不结构化,后面的生成式交互很难稳定。

2. 把拓扑从可视化能力升级成推理能力

很多产品都有服务地图,但地图常常只是一个辅助浏览界面。Dynatrace 给出的启发是,拓扑不该只是“让用户看见系统关系”,还应该成为 RCA 内核里的推理底座。

只有当拓扑真正进入归因、去重和影响分析过程时,它才会从展示模块变成诊断引擎的一部分。

3. 把去重和归并做成正式能力

RCA 一旦进入复杂环境,首先遇到的问题通常不是“找不到数据”,而是“数据太多”。Dynatrace 之所以能把 problem 做成主对象,前提就是它先解决了事件标准化、聚合和去重的问题。

这点很容易被忽略,因为它不像 Copilot 那样容易展示,但它往往决定了用户最终看到的是一个清晰的问题,还是一团混杂的噪音。

4. 同时做根因和影响,而不是只做技术定位

Dynatrace 的 RCA 不只关心哪里坏了,也关心影响到了哪些入口服务、用户路径和 SLO。这个设计很重要,因为在真实运维场景里,排障优先级并不只由技术异常强度决定,还取决于业务影响。

从产品视角看,impact analysis 往往比单纯增加更多异常检测模型更直接地影响处置效率。

5. 把生成式 AI 放在正确的层级上

Dynatrace 的公开资料已经把自然语言、Copilot、Agentic Workflow 放进整体架构里,但从层级关系看,它们更像承接 RCA 结果,而不是替代 RCA 引擎。

这可能是最值得参考的一点。生成式 AI 很适合做总结、问答、解释和工作流编排,但在企业级 RCA 场景中,最终根因判断仍然需要建立在确定性更强的上下文模型和因果分析能力上。

五、Dynatrace 提供了什么方法论启发

如果把这次调研提炼成更抽象的方法论,我认为至少有四点。

1. 先统一对象,再统一界面

很多产品会先从交互入手重做体验,但 RCA 其实更适合先重做对象层。只要 event、incident、problem 仍然混在一起,界面再智能,也只是换一种方式展示复杂性。

2. 先让系统会判断,再让系统会表达

一个成熟的 AI RCA 系统,最好把 Detection、Diagnosis、Narrative 视作不同层次。异常检测、根因判断和结果表达不是一回事。Dynatrace 的架构清晰之处,就在于判断层优先于表达层。

3. RCA 的竞争力来自证据链,而不是模型名字

在企业环境里,用户并不会因为模型名称更前沿就天然相信结论。他们更关心的是: 这个根因是怎么得出来的,哪些事件参与了判断,为什么这几个问题被合并,为什么这个节点排在最前面。

可验证的证据链,往往比更强的文案能力更能建立信任。

4. Agent 更适合作为放大器,而不是起点

Agent 当然是可观测性领域下一阶段的重要方向,但从 Dynatrace 的路径看,Agent 发挥价值的前提是 RCA 已经形成稳定的问题对象、证据链和执行边界。否则,自动化只是在放大不确定性。

六、结语

如果只用一句话概括这次调研,我会说:

Dynatrace 对 AI RCA 的真正重构,不是先把 RCA 聊天化,而是先把 RCA 系统化。

它的思路并不神秘,但非常扎实:先统一数据,再建立实时拓扑;先做事件标准化和问题归并,再做因果归因与影响分析;最后才在这个基础上叠加 Copilot、自然语言交互和自动化动作。

这条路径的价值在于,它把 AI 从“附着在告警面板上的解释器”,变成了“建立在统一上下文之上的诊断与执行层”。

对于所有关注 AI RCA 的产品团队和技术团队来说,Dynatrace 最值得研究的地方,也许不是某一个功能点,而是它清楚地回答了一个基础问题:

当我们说要用 AI 重做 RCA 时,真正需要先重做的,到底是聊天方式,还是问题系统本身。

参考资料

本文基于 Dynatrace 官方公开资料整理,主要包括以下页面:

  1. Dynatrace Intelligence 总览:https://docs.dynatrace.com/docs/discover-dynatrace/platform/davis-ai
  2. Root cause analysis:https://docs.dynatrace.com/docs/dynatrace-intelligence/root-cause-analysis
  3. Root cause analysis concepts:https://docs.dynatrace.com/docs/dynatrace-intelligence/root-cause-analysis/concepts
  4. Event analysis and correlation:https://docs.dynatrace.com/docs/dynatrace-intelligence/root-cause-analysis/event-analysis-and-correlation
  5. Grail:https://docs.dynatrace.com/docs/discover-dynatrace/platform/grail
  6. Smartscape Classic:https://docs.dynatrace.com/docs/discover-dynatrace/platform/smartscape
  7. AI models:https://docs.dynatrace.com/docs/dynatrace-intelligence/reference/ai-models

文中判断为基于公开资料的技术研究与产品解读,不代表 Dynatrace 官方表述。

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云