看完 Datadog、Dynatrace、Grafana、PagerDuty、ServiceNow,再看 BigPanda,会发现 AI SRE 还有一条很重要的路线。
Datadog 的重点是:AI SRE 要能自动查生产数据。
Dynatrace 的重点是:AI RCA 要建立在因果图谱上。
Grafana 的重点是:AI 要嵌进开放可观测性工作台。
PagerDuty 的重点是:AI 要进入事故响应现场。
ServiceNow 的重点是:AI 要进入企业运维流程。
BigPanda 的重点是:AI 要先把告警风暴变成可处理、可调查、可分派的事故对象。
这句话听起来没有“AI 自动定位根因”那么刺激,但更接近企业运维的真实现场。
很多公司不是缺一个会聊天的 AI。
它们缺的是一条能把 noisy events 变成 actionable incidents 的链路。
真正压垮 NOC 的不是一个复杂根因,而是一堆碎片化信号
我们讨论 AI RCA 时,经常默认问题已经被整理好了。
好像系统里已经有一个清晰的 incident,所有相关指标、日志、链路、变更、owner、历史事故都在旁边,AI 只需要最后判断一下根因。
真实情况不是这样。
真实事故现场往往是:
监控系统各自报警。
云平台发一堆事件。
日志平台有错误模式。
APM 里看到下游超时。
网络监控也在报。
数据库监控说连接数高。
ITSM 里工单不断进来。
发布系统里刚好有几个变更。
群里有人问是不是某个第三方服务挂了。
L1 不知道该分给谁。
L2 收到升级时还要从头问一遍背景。
这个时候,如果 AI 只是给每条告警写一个“疑似根因”,帮助不大。
你得到的不是清晰事故,而是一堆更像人的告警描述。
BigPanda 的路线就是从这里切入。
它先不急着讲大模型多聪明,而是先做几件很基础但很难的事:
把 events 标准化。
把重复状态变化合成 alerts。
给 alerts 补 owner、priority、cluster、data center、service、business context。
再用 correlation patterns 和 AI/ML 把相关 alerts 聚合成 incidents。
然后把 topology、change、similar incidents、runbook、ticket、chat、history 放到 incident 里。
最后才让 LLM 和 agent 做摘要、推理、建议动作和自动化。
这条路径很朴素,但它是对的。
AI RCA 如果不先解决事件治理,只是在脏数据上写作文。
RCA 不应该从 alert 开始,而应该从 incident 开始
BigPanda 最核心的传统能力是 Incident Intelligence。
它把多源监控工具里的 alerts 聚合成高层 incidents,让响应者看到一次故障的完整范围,而不是盯着成百上千条碎片化告警。
这点非常关键。
一个真实事故可能同时触发 CPU、延迟、错误率、pod restart、数据库连接、队列积压、合成拨测、业务成功率等一堆告警。
这些告警单独看,每条都像一个问题。
但它们可能只是同一次事故的不同症状。
如果 AI 对每条告警分别做 RCA,就会得到很多互相打架的结论:
疑似 CPU 异常。
疑似数据库连接问题。
疑似下游接口超时。
疑似 Kubernetes 重启。
疑似网络抖动。
这不是智能,这是噪音换了一种表达。
BigPanda 的做法是先把相关 alerts 聚合成 incident。
它用 correlation patterns 定义告警之间的关系,比如 host、application、check、service、source system、time window、filter。它也支持 cross-source correlation,也可以选择 primary alert,方便后续自动化和协作工具使用。
更重要的是,这套关联不是完全黑箱。
管理员可以调整 correlation patterns,可以用历史数据 preview 规则效果,可以看 compression rate 和 accuracy,也可以审计配置变化。
这是企业客户真正会关心的东西。
很多 AIOps 产品喜欢说“AI 自动聚合告警”,但客户很快会问:
为什么这几条合在一起?
为什么那条没合?
这个规则会不会误聚合?
改了规则后历史效果怎么样?
谁改了规则?
能不能回滚?
能不能拆分?
如果回答不了这些问题,所谓智能聚合就很难进生产。
变更是根因分析里最硬的一类证据
BigPanda 还有一个很值得研究的能力:Root Cause Changes。
它做的事很直接:把 incident 和 change data 放在一起,找出可能导致事故的变更。
这个方向非常现实。
很多生产事故最后都和变更有关:
代码发布。
配置修改。
数据库 schema。
云资源调整。
网络策略变更。
权限变更。
Kubernetes workload 改动。
feature flag。
扩缩容。
第三方服务切换。
事故现场最常见的问题之一永远是:
刚才谁改了什么?
如果这些信息不在 incident 里,AI 就只能猜。
BigPanda 的 RCC 会根据时间窗口、alert coverage、change details、alert tags、incident metadata、类别权重等信息,标出 suspected root cause changes。
这里有一个很成熟的细节。
它没有简单说“最近的变更就是根因”。
它会区分时间接近、字段匹配、覆盖比例、类别权重和因果可能性。文档里甚至强调,它关注的是 causation,不只是 correlation。
这点非常重要。
最近有变更,是强线索,但不是最终答案。
更好的产品表达应该是:
这是疑似根因变更。
这是匹配证据。
这是影响的 alerts。
这是时间关系。
这是相似历史。
这是 AI 解释。
这是人工确认状态。
这是最终根因。
国内很多 AI RCA 产品太急着给最终答案。
一上来就说“根因为某某变更”。
这在生产环境里风险很高。
成熟的 RCA 产品应该把“可能”“疑似”“证据支持”“人工确认”“最终确认”分清楚。
LLM 的位置不是替代底座,而是在 enriched incident 上做解释
BigPanda 也用了大模型。
Automated Incident Analysis 会基于 enriched incident data 生成标题、摘要、潜在根因、推理和建议动作。
但这个顺序很关键:
它不是让 LLM 对原始告警随便发挥。
它是在 Alert Intelligence、Incident Intelligence、change correlation、similar incidents、incident tags 等上下文已经整理好之后,再让 LLM 做可读化、解释和建议。
这才是 LLM 在 AI RCA 里的合理位置。
LLM 擅长:
把多源上下文整理成自然语言。
把复杂事件总结给不同角色。
把历史处理经验提取成建议动作。
把事故进展更新成可共享摘要。
把推理过程写清楚。
把 runbook 和知识库转成当前可执行步骤。
LLM 不擅长:
凭空知道缺失的 telemetry。
自动修正脏字段。
稳定判断因果。
替客户维护 CMDB。
替团队决定风险动作是否能执行。
BigPanda 的产品结构里,LLM 是解释层和协作层,不是唯一底座。
这点值得国内厂商反复琢磨。
L1 是 AI SRE 非常现实的落地点
BigPanda 现在主推 agentic ITOps,其中一个重点是 L1 Agent。
它面向的不是高级 SRE 写复杂查询,而是一线运维和 NOC 的重复工作:
分诊。
路由。
优先级。
抑制噪音。
生成升级包。
收集上下文。
关联 ServiceNow / Jira 工单。
运行只读诊断 runbook。
在需要时升级给 L2 / L3。
这其实是 AI SRE 很好的商业落地点。
因为 L1 的痛点足够明确,ROI 也容易衡量:
告警压缩率。
ticket volume。
误派率。
升级率。
MTTA。
MTTR。
L1 resolution rate。
重复事故比例。
工程师被打扰次数。
相比“AI 自动修复所有生产故障”,L1 自动化更容易落地。
BigPanda 的文档里也有一个边界值得注意:修复类动作需要明确审批流程。它把 context collection 和 remediation actions 分开。
这很重要。
AI 可以先自动收集上下文。
可以自动跑诊断。
可以自动生成升级包。
可以自动推荐动作。
可以在人确认后执行低风险修复。
但不是一开始就无条件接管生产环境。
企业客户要的是自动化,但更要权限、审批、审计和可回滚。
IT Knowledge Graph 的价值在于把组织记忆带回现场
BigPanda 现在反复强调 IT Knowledge Graph。
这个词容易被当成营销概念,但它背后的产品判断是对的:
AI SRE 不能只看 machine data。
指标、日志、链路、事件当然重要。
但很多事故真正的关键知识藏在别处。
工单里有上次处理记录。
复盘里有最终根因。
runbook 里有操作步骤。
群聊里有临时 workaround。
会议纪要里有判断过程。
发布单里有变更说明。
ServiceNow 里有 assignment group。
Jira 里有修复任务。
CMDB 里有业务影响。
历史 incident 里有谁处理过。
这些东西过去是死的。
事故来了,值班工程师还是从零开始问。
AI SRE 真正有价值的一件事,就是把这些组织记忆重新拉回事故现场。
这也是我觉得 BigPanda 路线值得研究的地方。
它不是只在做告警压缩,也不是只在做聊天助手。它试图把机器数据、流程数据和人的经验变成一个可被 agent 使用的上下文层。
这对国内厂商也很关键。
我们很多客户并不缺数据,缺的是连接。
监控有一套。
日志有一套。
APM 有一套。
CMDB 有一套。
发布系统有一套。
工单有一套。
知识库有一套。
IM 群聊有一套。
自动化平台还有一套。
AI SRE 的机会,不只是再做一个监控页面,而是把这些系统里的运营知识连接起来。
BigPanda 和 PagerDuty、ServiceNow 的差别
BigPanda 很容易和 PagerDuty、ServiceNow 放在一起比较。
PagerDuty 更像 on-call / incident response 的入口。它关心谁该醒、怎么升级、怎么协作、怎么把告警变成 incident response。
ServiceNow 更像企业运维流程系统。它关心 incident、problem、change、CMDB、approval、workflow、audit、knowledge。
BigPanda 则更像事件智能和 L1 自动化层。
它关心的是:
这些告警是不是一回事?
哪些应该合成 incident?
哪个变更可能相关?
有没有类似历史?
该不该升级?
该分给哪个团队?
L1 能不能先处理?
能不能把上下文带进 ServiceNow、Jira、Slack、Teams?
三者并不完全互斥。
真实企业里,BigPanda 可以在 PagerDuty 前面做事件压缩,也可以和 ServiceNow 结合做 ITSM 分派和工单上下文。
所以 BigPanda 的竞争重点不是替代所有可观测性工具,而是在碎片化工具链上形成一层可操作的 incident intelligence。
对国内厂商的启发
如果把 BigPanda 的路线翻译成国内产品判断,我觉得至少有八点。
第一,先治理事件,再谈 AI。
service、env、cluster、component、owner、priority、business impact、change id、runbook 这些字段要结构化。否则 AI 只能猜。
第二,RCA 对象要从 alert 升级成 incident / problem / case。
不要让 AI 给每条告警写总结。先去重、抑制、聚合、关联,再让 AI 在事故对象上工作。
第三,告警关联要可解释。
规则、模型、预览、压缩率、准确率、拆分、合并、审计,都要产品化。
第四,变更必须是一等公民。
发布、配置、数据库、云资源、网络、权限、feature flag、扩缩容,都要进入 incident 上下文。
第五,历史事故要活起来。
复盘、工单、群聊、runbook、处理动作、修复 commit,都应该能在下一次事故里被召回。
第六,L1 是很好的切入口。
不要一开始就承诺自动替代高级 SRE。先把分诊、路由、升级包、上下文收集、只读诊断和低风险动作做好。
第七,自动化要分阶段。
先建议,再诊断,再人确认执行,再审批闭环,最后才是受控自愈。
第八,国内入口要本地化。
BigPanda 连接 Slack、Teams、ServiceNow、Jira。国内要连接飞书、企微、钉钉、蓝信、国产 ITSM、自研发布系统、CMDB、审批流和值班系统。
最后的判断
BigPanda 的路线不一定适合所有 AI SRE 产品照搬。
如果你要做全栈可观测性,Datadog 更值得看。
如果你要做因果 RCA,Dynatrace 更值得看。
如果你要做开放可观测性工作台,Grafana 更值得看。
如果你要做事故响应,PagerDuty 必须看。
如果你要做企业流程闭环,ServiceNow 必须看。
如果你要做 NOC、L1、告警压缩、事件关联、变更根因和工单自动化,BigPanda 非常值得看。
它提醒我们一件事:
AI RCA 的起点不是“问大模型根因是什么”。
真正的起点是:
这是不是同一次事故?
影响了什么服务?
谁负责?
最近发生了什么变更?
历史有没有类似?
L1 能不能处理?
需要升级给谁?
证据是什么?
下一步动作是什么?
执行动作需不需要审批?
结果怎么沉淀到下一次?
把这些问题回答好,AI SRE 才会从一个漂亮 demo 变成真正能减轻运维负担的产品。
BigPanda 的价值不在会聊天,而在把告警风暴变成可调查、可分派、可自动化的事故对象。
参考资料:BigPanda 官方 Agentic ITOps Platform、Alert Intelligence、Incident Intelligence、Root Cause Changes、Automated Incident Analysis、Incident Correlation、AI Detection and Response、L1 Agent、AI Incident Assistant、IT Knowledge Graph、AI Incident Prevention 等文档与产品页。