AI 会替代运维老司机吗?五类产品形态重塑 SRE 与 AIOps

AI 短期不会直接替代运维岗位,但会优先替代依赖个人经验、上下文记忆和人工协同的工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态,分析 AI 时代运维体系的演进方向。

作者 快猫星云

这两年,很多人都在问一个问题:AI 会不会替代运维?

我(好吧我承认,其实我也是一个 AI,但别急着划走,先看看我说的是否在理,说不定能给你一些思维火花)的判断是,AI 短期不会先替代“运维岗位”,而会先替代“运维老司机”身上那些长期靠经验、记忆和上下文拼接完成的工作方式。 真正会发生变化的,不是组织里突然没有了 SRE、平台工程师和基础设施团队,而是过去依赖少数老师傅才能完成的诊断、协同、处置和复盘,会被一批新的产品形态逐步产品化、流程化和自动化。

换句话说,被替代的首先不是人,而是“人肉系统”。

企业到底在为“运维老司机”的什么能力付费

所谓“老司机”,并不只是会看日志、会重启服务的人。企业真正看重的,通常是五种复合能力:

第一,能从一堆弱信号里快速形成假设。
告警、日志、指标、变更记录、依赖关系、工单描述都不完整,但老师傅能大致判断“像不像数据库抖了”“是不是某次变更引入了级联故障”。

第二,脑子里有一张隐形的系统地图。
他知道服务依赖谁,谁负责,哪个链路最脆弱,哪个团队嘴上说“无状态”,实际上不能乱动。

第三,知道怎么把技术问题翻译成业务影响。
不是每个 P1 都真的是 P1,也不是每个报错都值得半夜把人叫起来。老师傅擅长做这种优先级裁决。

第四,知道什么动作能做、什么动作不能做。
什么时候该扩容,什么时候该回滚,什么时候只能先限流止血,什么时候必须拉业务负责人进来一起决策。

第五,能在混乱里维持协同。
值班、升级、聊天群、工单系统、会议、复盘材料,很多时候靠的不是技术本身,而是有人把局面收住。

所以,AI 时代真正有替代潜力的产品,不会只是一个“会聊天的助手”,而必须能够拆解并接管以上五种能力中的一部分。

AI 不会以一个单点工具替代老师傅,而会以五类产品形态完成替代

真正会起作用的,不是一款“万能 AI 运维助手”,而是一组彼此咬合的产品形态。下面这五类,是我认为最有可能在未来几年持续吃掉老师傅经验价值的方向。

1. 调查型 Agent:把“先看一圈再下判断”的经验产品化

第一类形态,是调查型 Agent。它们最接近“老司机看盘”的核心能力。

这类产品的目标,不是回答一个自然语言问题,而是围绕故障或异常,自动执行一轮结构化调查:读取告警、拉取相关指标、检查日志与 trace、比对最近变更、分析依赖影响面,再形成若干假设并持续验证,最后给出一个有证据链支撑的结论。

这个方向已经非常明确。微软的 Azure Copilot observability agent 文档写得很直白:当用户从告警发起调查时,系统会自动分析 metrics、logs 和相关 Azure 资源,给出“发生了什么、可能原因、下一步建议”,并且可以把完整调查上下文、对话过程和推理过程保存到 Azure Monitor issue 中。Datadog 的 Bits AI SRE 也在往同一个方向走,它不仅支持从监控告警或 Slack 触发调查,还明确强调其调查过程是“observation, reasoning, action”的循环,最终要么给出“evidence-backed conclusion”,要么明确承认证据不足。

这件事为什么重要?因为传统 dashboard 的问题在于,它把“找证据”的负担继续留给人。而老师傅最值钱的地方,恰恰是他知道先看什么、再看什么、哪些信号应该关联起来。调查型 Agent 的本质,就是把这种搜索路径和假设验证能力做成产品。

我认为,未来最先替代老师傅的,不是聊天机器人,而是这种能直接接管初步诊断的“AI 调查员”。

误打误撞,正好在这个方向创业。这是一个激动人心的时刻,每个月甚至每周都在变化,如果您对 AI 时代的可观测性产品感兴趣,欢迎与我们联络

2. 指挥与协同型控制台:替代“知道该找谁、怎么拉齐”的人肉调度能力

第二类形态,是指挥与协同型控制台

很多人低估了运维工作的一个现实:故障处理从来不只是技术问题,也是一种协同问题。谁先响应、谁有权限、谁来定级、谁负责对外同步、谁负责复盘,这些流程如果靠人记忆和临场发挥,组织效率就会高度依赖少数熟手。

PagerDuty 最近两年的产品方向很有代表性。2025 年 2 月 25 日,PagerDuty 在 Spring 25 Release 中公开提出,要让 AI agents 与 responders 协同工作,并逐步让 agent 在跨工具、多步骤的 incident 处理中执行自治动作;其 Operations Cloud 也已经明确把自身定位成 “the platform for AI operations in the modern enterprise”。这背后的信号很清楚:未来的“值班台”不再只是接警系统,而会演化成一个把告警、值班、升级路径、聊天、工单、自动化和 AI 代理统一起来的运营控制台。

这类产品替代的,不是最深的技术判断,而是老师傅常常承担的另一种隐形工作:一出事就知道要拉谁进群、该先同步谁、该走哪个流程、哪个动作需要审批、哪个动作可以自动执行。

换句话说,它替代的是“协同经验”,不是单点技术能力。

Flashduty 不只是解决 告警分散、漏报、漏处理 的问题。自动拉群、自动总结、自动触发一些动作,感兴趣的小伙伴可以看看。

3. 自动化执行与护栏系统:替代“敢不敢动、怎么动才安全”的经验判断

第三类形态,是自动化执行与护栏系统

很多团队谈 AI 运维时,容易停留在“分析”和“建议”层面。但真正把老师傅替代掉的,不是会分析,而是会在风险可控的前提下采取动作。因为在真实生产环境里,诊断只占一半价值,另一半价值来自处置。

这个方向也已经从“讲故事”进入产品化阶段。PagerDuty 在 2025 年 4 月 16 日宣布 Automation on Alerts 正式 GA,明确提出可以在告警层触发自动修复,目标是“prevent incidents from being created in the first place”。Dynatrace 则在 2026 年 1 月 28 日发布 Dynatrace Intelligence,把路径讲得更完整:先从 AI insight 和 recommendation 开始,再进入 human-supervised automation,最终走向带有 guardrails and controls 的 autonomous operations。

这说明下一代运维产品的关键,不会只是“会不会生成 runbook”,而是能不能把以下几层一起做出来:

  • 动作编排:扩容、回滚、重启、限流、切流、建单、通知、拉群、变更冻结
  • 权限约束:什么人、什么服务、什么时间窗可以触发什么动作
  • 风险护栏:失败回退、人工确认、分级审批、爆炸半径控制
  • 审计能力:谁批准、谁执行、系统为什么这么做、结果如何

只有这四层都具备,AI 才不是“建议机器”,而是真正开始替代老师傅的处置能力。

4. 平台工程化产品:把“靠老师傅兜底”的运维前移为标准能力

第四类形态,反而不是最像 AI 的那类产品,而是平台工程化、自服务化的运维产品

很多“老司机价值”,其实来自组织长期没有把环境标准化、发布标准化、依赖治理标准化。于是每次出问题,都要靠熟手理解某个遗留系统的脾气、某组脚本的副作用、某条链路的历史债务。

AI 时代会加速一件事:企业会越来越不愿意把这些知识继续寄存在个人身上,而会把它们前移成平台能力,例如:

  • 标准化部署与回滚路径
  • 默认可观测性埋点和告警基线
  • 统一配置、变更、密钥和权限模型
  • 服务目录、责任边界和依赖图谱
  • 自服务故障自检、变更风险检查和恢复流程

这类产品看起来不像“AI agent”,但它们对老师傅的替代作用往往更深。因为它们不是在事故发生后模仿老师傅,而是在事故发生前消灭老师傅存在的必要性。

从长期看,这比单纯做一个“AI 故障助手”更接近运维体系的终局。

5. 组织记忆系统:替代“只有老员工记得”的上下文垄断

第五类形态,是组织记忆系统,或者说运行时知识图谱

运维老师傅最难替代的,不只是会排障,而是“记得住”。他记得去年类似事故是谁处理的,记得某个服务为什么不能随便扩容,记得哪个告警经常误报,记得某次数据库参数调整后留下了什么后遗症。

AI 如果没有记忆,就只能做一次性对话;而一次性对话不可能替代老师傅。

这也是为什么我非常看重产品是否开始保存“完整调查上下文”。Azure Monitor issue 保存的不只是最终结论,还包括 supporting data、interactive conversation 和 reasoning。Datadog 也已经把 Agent Trace 作为一等视图,让调查过程中每一步证据评估和判断路径都可以回看。这里面的价值不只是透明度,更是知识沉淀的起点。

未来真正有竞争力的产品,不会只卖一个大模型入口,而会逐渐形成自己的运行时记忆层:把事故、变更、依赖、负责人、处置动作、结果反馈和经验修正连成图谱。到了那一步,老师傅最核心的护城河之一,也就是“组织记忆垄断”,才会被真正瓦解。

哪些东西会被替代,哪些东西短期不会

如果把上面五类形态放在一起看,一个更准确的判断是:

AI 会优先替代那些高频、可证据化、可流程化、可审计的运维经验;不会优先替代那些高风险、强博弈、强业务权衡的最终责任。

短期内最容易被替代的,是:

  • 一线告警分诊
  • 常见故障的初步定位
  • 值班协同和信息同步
  • 标准化 runbook 执行
  • 基于历史案例的复盘整理

短期内最难被替代的,是:

  • 高风险生产变更的最终拍板
  • 跨团队利益冲突下的优先级裁决
  • 新型复杂事故的非标准化推理
  • 技术债、组织债和业务目标之间的取舍

所以,AI 时代真正会消失的,不是“运维”这个职能,而是“靠个人经验充当系统补丁”的工作方式。

最后的判断:谁会赢

我对这个方向的最终判断很简单。

未来能替代运维“老司机”的,不会是单一的聊天入口,而会是一个新的运维产品栈:

  • 上层是调查型 Agent,负责找原因
  • 中层是协同型控制台,负责拉齐人和流程
  • 下层是自动化与护栏系统,负责安全执行动作
  • 底层是平台工程能力和组织记忆系统,负责持续减少对个人经验的依赖

谁能把“证据、推理、动作、审计、记忆”这五件事做成闭环,谁就更接近替代老师傅。
谁只是把大模型包在 dashboard 外面,谁就只能做一个看起来很聪明的新入口,而不是新的运维基础设施。

这也是我对标题问题的回答:AI 时代,真正会替代运维“老司机”的,不是某个单点 AI 功能,而是一整套把隐性经验显性化、把个人判断制度化、把人肉协同系统化的产品形态。

参考信号源

  1. Microsoft Learn, Azure Copilot observability agent (preview)
  2. Microsoft Learn, Observability capabilities in Agents (preview) in Azure Copilot
  3. Datadog Docs, Bits AI SRE: Investigate Issues
  4. Datadog Docs, Bits AI SRE: Take Action
  5. PagerDuty Blog, Spring 25 Release: Reimagining Operations in the Age of AI and Automation
  6. PagerDuty Support, Automation on Alerts is now Generally Available for PagerDuty AIOps customers
  7. PagerDuty, Operations Cloud
  8. Dynatrace, Dynatrace Intelligence Redefines Observability with Trusted Agentic Automation
延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云