incident.io 给 AI RCA 上了一课:真正值钱的不是根因,而是事故现场

本文基于 incident.io 在 AI SRE、事故管理和 RCA 方向的公开产品动作,拆解为什么 AI RCA 不能只依赖可观测性数据,而要把告警、事故频道、协作上下文、组织记忆、复盘和行动项串成完整的事故生命周期。

作者 技术调研

incident.io 给 AI RCA 上了一课:真正值钱的不是根因,而是事故现场

最近我看完 incident.io 在 AI SRE、RCA、事故管理方向上的一系列产品动作,最大的感受是:AI RCA 不能只从可观测性数据里长出来,它还必须从事故现场里长出来。

很多监控和可观测性厂商现在都在做 AI RCA。常见做法是把大模型接到告警、日志、指标、链路上,让它解释“为什么出问题”。这个方向当然重要,但如果只做到这里,我觉得还不够。

因为真实事故里,根因从来不是一个孤立答案。

它背后有告警风暴,有最近发布,有 Slack 群里的讨论,有电话会议里的口头判断,有临时降级,有客户沟通,有值班交接,有复盘文档,有遗留 follow-up,还有下次事故能不能少踩一次坑。

incident.io 最值得学习的地方,恰恰在这里。

它不是一家传统可观测性厂商。它不拥有最底层的 metrics、logs、traces 数据。但它抓住了另一个更容易被低估的入口:事故发生之后,工程团队真正工作的地方。

这件事对所有做监控和可观测性的公司,都很有提醒意义。

AI RCA 不应该从“根因按钮”开始

如果我们把 AI RCA 做成一个按钮,用户点击之后生成一段“疑似原因”,Demo 会很好看。

但真实生产环境里,这种体验很容易失效。

原因很简单:事故刚发生时,很多信息是不完整的。告警只是症状,日志只是片段,指标只是投影。系统如果在证据不足的时候急着给唯一答案,只会让一线工程师更不信任它。

incident.io 的思路不是这样。

它把 AI 放进事故处理的完整流程里:告警触发之后创建 incident,在 Slack 里拉起事故频道,AI 可以帮忙总结现状、查询历史事故、整理会议纪要、推荐 follow-up、生成复盘草稿,甚至在 AI SRE 场景里继续关联代码变更、遥测数据和历史处理经验。

这不是“点一下生成根因”。

这是把事故处理过程本身变成 AI 可以理解、可以参与、可以沉淀的工作流。

我认为这是一个很关键的产品分水岭。AI RCA 的价值不在于它能不能说出一句“根因可能是数据库连接池耗尽”,而在于它能不能回答一线响应者真正关心的问题:

  • 现在发生了什么?
  • 已经确认了什么?
  • 还有哪些是假设?
  • 影响了谁?
  • 最近谁改了什么?
  • 以前有没有类似事故?
  • 上次是谁处理的?
  • 这次下一步该看哪里?
  • 事故结束后哪些动作必须补上?

这些问题加在一起,才是 RCA 的真实形态。

incident.io 抓住的是“事故事实”

传统可观测性平台很强,因为它们掌握机器事实。

它们知道哪个服务延迟高了,哪个接口错误率上升了,哪条 trace 变慢了,哪段日志开始异常,哪个节点 CPU 飙升。

但事故处理中还有另一类事实,叫事故事实。

谁声明了 incident?谁是 incident lead?哪些人进了频道?哪条判断被确认?哪个方向被排除了?什么时候决定 rollback?什么时候通知客户?哪些 follow-up 被创建?最后 postmortem 是怎么写的?

这些信息往往不在 metrics、logs、traces 里。

它们在 Slack、Teams、Zoom、Google Meet、工单系统、复盘文档和人的脑子里。

incident.io 的强项就是把这些“事故事实”产品化。它的 @incident 在事故频道里工作,Slack assistant 可以在侧边栏里私下追问,Scribe 可以加入事故会议做转录和总结,Post-mortems 可以基于 timeline、Slack threads、PR、custom fields 生成和审阅,Related incidents 可以用 embeddings 找相似历史事故。

这些能力单独看都不神秘。

但组合起来,它就不只是一个 AI 助手,而是一个围绕事故现场持续收集上下文的系统。

这也是我觉得它对可观测性厂商构成压力的地方。可观测性平台拥有底层遥测数据,但如果用户处理事故的主要入口变成 incident.io,观测平台就可能被降级成数据源。

用户不一定打开你的 dashboard。他可能直接在 Slack 里问:最近有没有可疑部署?相关日志是什么?以前有没有类似问题?谁 on-call?现在应该先回滚还是先扩容?

如果 incident.io 的 AI agent 能调 Datadog、Grafana、Splunk、Honeycomb、GCP Cloud Logging,再把证据和建议发回事故频道,那用户心智里的“排障入口”就已经变了。

AI 要在事故频道里“合群”

我很喜欢 incident.io 对 @incident 的一个产品方向:它不只是要聪明,还要合群。

事故频道是一个很特殊的工作场所。

里面有人在查日志,有人在看 dashboard,有人在和客户沟通,有人在判断是否升级,有人刚加入完全不知道前因后果。AI 如果每次都输出一大段看似专业的分析,反而会制造噪音。

incident.io 在 2026 年初对 @incident 做过一次升级,其中一个重点就是让它更懂当前频道里的上下文:哪些信息是人类已经确认的,哪些只是 AI SRE 的技术发现,什么时候应该短回答,什么时候应该展开,什么时候应该承认不知道,什么时候应该给下一步动作。

这很重要。

企业级 AI 产品最难的地方,不是“回答得像不像专家”,而是“能不能在人的工作流里不添乱”。

很多 AI 功能失败,不是因为模型不够强,而是因为它不懂场景节奏。事故处理中,大家要的是清晰、克制、可验证的信息,而不是一个随时想表现自己的聊天机器人。

好的 AI SRE 应该像一个靠谱的值班同事:

它能帮你整理现场,但不会抢指挥权。

它能提出假设,但会标注证据和不确定性。

它能建议动作,但知道哪些动作必须人来确认。

它能承认不知道,而不是硬编一个合理解释。

这比“全自动修复”听起来没那么刺激,但更接近真实企业客户愿意采用的路径。

组织记忆会成为 AI SRE 的复利

incident.io 的 Related incidents 很值得单独拿出来讲。

它用 embeddings 找和当前事故相似的历史事故。这个功能看起来不如“自动根因分析”酷,但我认为它非常接近真实 SRE 的工作方式。

一个资深工程师为什么排障快?

很多时候不是因为他现场推理能力比别人强十倍,而是因为他见过类似问题。他知道去年这个服务也因为某个配置出过问题,知道上次 rollback 为什么没成功,知道某个看起来很吓人的告警其实经常是下游连锁反应,知道应该先找谁。

这就是组织记忆。

incident.io 在事故中持续沉淀 summary、timeline、follow-up、postmortem、Scribe transcript、related incident link。下一次事故发生时,这些内容又会变成 AI SRE 的上下文。

这条闭环很有价值:

事故中收集证据。

事故后生成复盘。

复盘里沉淀行动项。

行动项推动改进。

历史事故反哺下一次调查。

很多公司做 RCA,最大的问题是每次事故都像第一次发生。

复盘写完就沉到知识库里,follow-up 没人追,历史经验无法在下一次告警时自动浮出来。于是同类问题反复发生,组织经验主要靠老员工记忆维持。

AI SRE 如果不能打破这个循环,就只是更会总结日志。

真正有价值的 AI SRE,应该让每一次事故都变成下一次事故的资产。

“外骨骼”,不是“机器人”

incident.io 早期讲 AI 的时候,用过一个很准确的表达:exoskeletons, not robots。

也就是做外骨骼,不是做机器人。

这个说法我很认同。AI 在事故管理里的第一价值,不应该是立刻替代 SRE,而是增强一线响应者:减少上下文收集成本,减少重复文档工作,减少遗漏,帮人更快进入状态。

所以 incident.io 的 AI 演进很克制。

先做 suggested summaries,让 AI 起草事故摘要,人来确认。

再做 suggested follow-ups,让 AI 从事故讨论里找遗漏行动项。

再做 related incidents,让 AI 推荐相似历史事故,人来接受或 dismiss。

再做 Scribe,把会议里的关键判断变成可检索上下文。

最后才逐步走向 AI SRE、自动调查、建议修复和生成 PR。

这是一条很典型的信任爬坡路线。

对 ToB 产品来说,信任不是靠发布会上说“我们很准”建立的。信任来自长期的小场景:这次摘要写得不错,这次 follow-up 没漏,这次历史事故推荐有用,这次 AI 没有在不知道的时候胡说。

当用户在低风险场景里持续感受到可靠,才可能把更高风险的调查、处置、修复权限逐步交给 AI。

这也是很多 AI RCA 产品容易犯的错:一上来就想做“全自动根因”和“自动修复”,但前面的数据、反馈、权限、审计、评估都没铺好。

产品太急,反而会破坏信任。

对可观测性厂商的真正启发

如果我们是一家监控、可观测性厂商,看 incident.io 不能只看它有哪些 AI 功能。

更应该看它占住了哪几个关键位置。

第一,它占住了事故入口。事故一发生,频道、角色、状态、协作都在它这里组织。

第二,它占住了组织上下文。谁负责什么服务,谁参与过什么事故,哪些 follow-up 没完成,哪些复盘和这次相似。

第三,它占住了 post-incident learning。事故不是 resolved 就结束,而是要变成复盘、行动项和下一次调查的知识。

第四,它正在把自己变成 agent tool layer。Remote MCP server 让 Claude、ChatGPT、Cursor、Codex 或内部 agent 能查询 incident history、alerts、on-call、postmortem、telemetry 和 catalog。

这对可观测性厂商是一个很直接的提醒:只拥有 telemetry 不够。

未来的 AI RCA 需要同时拥有三类上下文:

机器上下文:指标、日志、链路、拓扑、告警、变更。

事故上下文:频道、角色、状态、决策、时间线、复盘、follow-up。

组织上下文:团队、owner、on-call、历史经验、运行手册、权限边界。

传统可观测性厂商天然有第一类,但第二类和第三类往往很薄。incident.io 天然有第二类和第三类,但第一类需要连接外部系统。

所以未来很可能不是谁完全替代谁,而是谁先把这三类上下文打通。

国内厂商应该怎么做

如果把 incident.io 的路线压缩成一句话,我的理解是:

AI RCA 的关键不是更快给结论,而是更好地组织事故现场。

对国内 ToB 可观测性厂商来说,我会优先考虑几件事。

先把告警变成 incident,而不是让 AI 对每条告警单独写小作文。真实生产环境里,用户处理的是一组相关症状背后的事故,不是一条孤立告警。

然后把事故工作台做完整。至少要有负责人、影响范围、时间线、近期变更、相关服务、历史事故、运行手册、状态更新、复盘草稿和 follow-up。

再把 AI 放到协作工具里。国内客户可能用飞书、企业微信、钉钉,也可能用 Slack 或 Teams。事故在哪里协作,AI 就应该在哪里出现。控制台里的 AI 页面不是不重要,但它不能是唯一入口。

接着做相似历史事故和组织记忆。这个能力可能比很多复杂的自动根因推理更早产生价值,因为它非常符合一线工程师的真实需求:以前有没有遇到过?上次怎么处理?找谁最快?

最后再做 investigation agent 和半自动处置。让 AI 自动拉证据、提出假设、排除方向、生成下一步检查计划。等用户信任足够,再在权限、审批、审计和回滚机制下,让它起草命令、生成 PR、建议 rollback 或扩容。

这个顺序不花哨,但更扎实。

最后的判断

incident.io 给我的最大启发是:AI RCA 的终局不是一个更聪明的聊天框,而是一个围绕事故生命周期运转的智能系统。

它要能连接告警和事故,连接机器事实和人类判断,连接当前现场和历史经验,连接根因分析和后续行动。

未来这个赛道的竞争,可能不会简单地发生在“谁的模型更会总结日志”。

真正的竞争会发生在几个更底层的问题上:

  • 谁有更完整的事故对象模型?
  • 谁能拿到真实协作上下文?
  • 谁能把历史事故变成组织记忆?
  • 谁能让 AI 在 ChatOps 里自然工作?
  • 谁能把 RCA 输出变成行动和复盘闭环?
  • 谁能在权限、审计和审批下逐步走向自动化?

New Relic 代表的是 observability-native 的 AI RCA 路线。incident.io 代表的是 incident-native 的 AI RCA 路线。

我越来越觉得,真正好的答案不会是二选一。

可观测性厂商要做 AI RCA,不能只在 dashboard 里加一个大模型入口。我们需要把遥测数据的深度,和事故工作流的现场感结合起来。

谁能同时拥有证据、工作流、组织记忆和行动闭环,谁才有机会把 AI RCA 从 Demo 做成生产力。

参考资料

  1. incident.io AI SRE
  2. incident.io AI Platform
  3. Using @incident
  4. Slack assistant
  5. Remote MCP server
  6. Scribe
  7. Finding relationships in your data with embeddings
  8. Building an AI incident responder
  9. The timeline to fully automated incident response
  10. incident.io raises $62M to build AI agents that resolve incidents with you
延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云