最近看完 LogicMonitor 的 Edwin AI,我的一个判断更明确了:
AI SRE 不能只按互联网公司的研发排障场景来设计。
很多产品一谈 AI SRE,默认画面都是微服务、Kubernetes、trace、deploy、CI/CD、Slack、GitHub PR。这个方向当然重要,Datadog、New Relic、Sentry 都在往这里走。
但这不是全部现场。
大量企业客户的真实运维现场,是网络设备、VPN、防火墙、虚拟化、服务器、存储、数据库、云资源、ITSM 工单、CMDB、变更单、知识库和外包运维混在一起。
这个世界里,AI SRE 的第一任务不是给研发解释一条 trace,而是帮 NOC、L1、ITOps 和 MSP 从告警风暴里找出真正要处理的问题。
LogicMonitor 的 Edwin AI,正好是这个方向上很值得研究的样本。
它不是另一个云原生排障助手
LogicMonitor 的背景和 Datadog、Dynatrace、New Relic 不太一样。
它长期做的是 hybrid observability,覆盖网络、服务器、云、多云、基础设施、日志、网站可用性和 MSP 场景。它面向的不是单一研发团队,而是大量企业 IT 运维组织。
这决定了 Edwin AI 的产品气质。
它不只是一个聊天框。
也不只是一个 dashboard copilot。
更不是单纯问一句“帮我分析这个告警”的 LLM wrapper。
它先做传统 AIOps 里最基础但最难的事情:事件和告警处理。
原始事件进来以后,Edwin AI 会去重、关联、分组、排序,把大量 noisy alerts 变成 insights。没有被关联上的,则作为 singleton alerts 单独升级。
这一步很关键。
因为在 NOC 和企业 IT 场景里,工程师面对的不是一个干净的 incident,而是一堆告警。
一台交换机抖一下。
一个虚拟机 CPU 高。
一个接口丢包。
一个数据库连接异常。
一批云资源状态变化。
一个 ServiceNow 工单被创建。
一个变更窗口刚刚结束。
如果 AI 直接对每条告警写总结,只会制造更多噪音。
所以 Edwin AI 的第一层价值,是把告警风暴变成一个可调查对象。
AI RCA 先要有调查对象
很多 AI RCA 产品容易跳过这一步。
告警来了,直接让大模型解释。日志贴上去,直接让大模型总结。Dashboard 打开,直接让大模型说根因。
这看起来很快,但问题是:模型分析的对象经常不对。
它看到的是一个症状,不是一个事故。
它看到的是一条日志,不是一个故障窗口。
它看到的是一个指标异常,不知道相关资源还有哪些。
它看到的是一堆告警,不知道哪些重复、哪些相关、哪些只是连带影响。
LogicMonitor 的路线更老派,但也更现实。
先把 alerts 通过 correlation models 形成 insights。
再对 major / critical insights 自动生成 AI Investigation。
较低级别的问题,则由用户手动触发调查。
这个设计很企业化。
AI investigation 不是免费午餐。它有计算成本,也有注意力成本。如果每个小告警都跑一遍深度调查,最后只会把 on-call 和 NOC 淹没在 AI 生成的分析里。
只对关键问题自动调查,是更克制、也更可信的产品取舍。
日志让 RCA 从“像答案”变成“有证据”
LogicMonitor 有一篇官方博客标题很直接:Evidence-Backed RCA starts with logs。
这句话值得单独拿出来看。
很多所谓 AI RCA,其实只是 alert-driven inference。
告警告诉它 CPU 高,它说可能是负载上升。
告警告诉它接口慢,它说可能是下游依赖异常。
告警告诉它错误率高,它说可能是最近发布导致。
这些话听起来都合理,但工程师不会因此相信它。
因为合理不等于有证据。
LogicMonitor 在 Edwin AI 的 RCA 里强调日志,是因为很多传统 IT 故障真正的行为变化藏在日志里。metric 告诉你“坏了”,日志才可能告诉你“怎么坏的”。
它的思路大概是:
先看 alert context。
再识别相关 CI。
按 CI 和故障时间窗口拉取日志。
对日志聚类和总结。
最后把 alerts、logs 和上下文放在一起做 RCA。
这比直接把告警喂给大模型可靠得多。
对国内厂商来说,这点尤其重要。
很多监控系统里,日志只是一个搜索框。出了故障,工程师自己去搜。AI 最多帮你写个查询语句。
但 AI RCA 真正需要的是:系统自动知道该看哪些资源、哪个时间窗口、哪些日志模式变化、哪些日志和当前告警相关。
日志不是附属品,日志应该是证据层。
变更单比部署记录更贴近企业现实
在互联网研发团队里,排障时大家常问:“最近发了什么版本?”
但在传统 IT 和政企客户里,问题不只来自代码发布。
可能是网络策略改了。
可能是 VPN 配置改了。
可能是防火墙规则变了。
可能是虚拟化资源调整了。
可能是数据库参数改了。
可能是存储路径切换了。
可能是某个运维供应商执行了变更单。
所以 Edwin AI 有一个很有意思的 Agent:Change Requests Agent。
它会分析最近和正在进行的 change activity,判断某个 change 是否可能导致当前 issue、alert 或 service disruption。它看的不是单纯部署记录,而是 change request 里的 CI 关系、时间、风险指标、实施说明、审批状态等字段。
这就很传统 IT,也很真实。
国内很多客户并没有统一的现代 DevOps 变更流水线,但他们有变更单。有审批。有窗口。有回退计划。有 CMDB。有外包团队执行记录。
AI SRE 如果只接 Git commit 和 deployment event,在这些客户那里会缺一大块上下文。
要做企业级 AI RCA,就必须进入变更流程。
历史事故和知识库不是文档,是上下文
Edwin AI 还有两个能力也值得看。
一个是 Similar Incidents Agent。它会分析历史 incident 的描述、分类、resolution notes、RCA 和处理方式,找出和当前问题相似的过去事故。
另一个是 Private Knowledge Base Agent。它会使用企业内部知识库里的 SOP、排障流程、操作规范,给当前告警和 insight 提供上下文。
这两个能力很朴素,但非常有价值。
因为一线运维里,大量问题不是第一次发生。
某个链路每个月抖一次。
某个数据库参数每次扩容后都要调。
某个客户机房的网络策略经常误配。
某类证书过期总是走同一套流程。
某个中间件的重启顺序必须按文档来。
如果 AI 每次都从零开始分析,它就没有利用组织经验。
真正有用的 AI SRE,应该先问:
以前发生过类似问题吗?
上次根因是什么?
当时怎么修的?
有没有 SOP?
有没有回退步骤?
有没有不能碰的风险点?
这也是国内厂商很容易忽略的地方。
客户的知识库、复盘报告、工单记录、运维手册,很多时候质量不高,格式也乱。但它们仍然是 AI SRE 最重要的私有上下文之一。
自动化不是“让 AI 直接修”
LogicMonitor 最近和 IBM、Red Hat 的合作也值得注意。
方向是把 IBM watsonx 和 Red Hat Ansible Automation Platform 集成进 Edwin AI。Edwin AI 发现问题后,可以推荐或触发 Ansible Playbook。如果没有现成 playbook,automation coding assistant 和 watsonx 可以辅助生成一个。
但这里有个关键点:执行前仍然强调 control 和 approval。
这比很多“AI 自动修复一切”的表达更成熟。
企业运维里的自动化不能只看能不能执行,还要看能不能治理。
谁有权限执行?
执行前是否需要审批?
哪些系统只能只读诊断?
哪些动作只能在变更窗口做?
失败后怎么回滚?
自动化脚本是谁维护的?
审计日志在哪里?
这些问题不解决,AI 自动修复越强,客户越害怕。
所以我更认可 Edwin AI 这种路径:先把 RCA、建议动作、历史经验、runbook 和自动化平台串起来,再逐步进入受控执行。
对国内厂商来说,也应该从低风险处置开始。
先做只读调查。
再做诊断脚本。
再做工单生成和变更建议。
再做人工审批后的 runbook 执行。
最后才谈更高程度的自动修复。
权限和多租户是企业 AI SRE 的基本功
Edwin AI 文档里还有一个细节很重要:record-level permissions。
用户能不能看到某个 Event、Alert、Insight,取决于他在 LogicMonitor 里的资源权限。如果一个 insight 关联的资源用户没有全部权限,他就看不到这个 insight。API credentials 也继承同样限制。
这看起来像后台细节,但对企业 AI SRE 是基本功。
AI 不能因为“会总结”就绕过权限。
AI 不能把别的业务线、别的租户、别的客户的数据说出来。
AI 不能在 MSP 场景里把 A 客户的事故经验泄露给 B 客户。
AI 不能用一个超级权限账号替所有人查数据。
国内厂商做 AI SRE,如果只做 demo,这些问题可以暂时不碰。
但只要进集团客户、金融客户、政企客户、托管运维客户,就一定会碰到。
权限、租户、数据边界、审计、脱敏、模型子处理方说明,这些都不是附属功能,而是 AI SRE 能否上线的前提。
LogicMonitor 给国内厂商的提醒
LogicMonitor / Edwin AI 给我的最大启发,是它把 AI SRE 拉回了传统 IT 运维现场。
不是每个客户都有成熟的云原生架构。
不是每个客户都有完整 trace。
不是每个客户都能把部署、日志、指标、代码、事故、工单全部打通。
不是每个故障都发生在应用服务里。
很多故障仍然发生在网络、基础设施、变更流程和人工操作里。
所以国内厂商做 AI SRE,不能只盯着 Datadog 的 Bits AI,也不能只学 Dynatrace 的 causal AI。
还要认真研究 LogicMonitor 这种路线:
告警先降噪。
事件先关联。
RCA 要有日志证据。
变更单要接进来。
历史事故要能召回。
知识库要能参与排障。
自动化要可审批。
权限和多租户要从第一天设计。
AI SRE 的真正难点,不是让模型写一段“疑似根因”。
真正难的是,把企业运维里那些分散、老旧、不标准、流程化、权限复杂的上下文,变成 AI 可以安全调用、持续调查、可审计执行的系统。
LogicMonitor 的价值就在这里。
它提醒我们:AI SRE 不只是云原生 SRE 的助手,也应该成为传统 IT 运维的工作台。
如果这个方向做对了,AI RCA 才不只是事故现场的一段总结,而会变成企业运维从告警、调查、工单、知识到自动化的一条新链路。