这两年,很多人都在问一个问题:AI 会不会替代运维?
我的判断是:AI 短期不会先替代“运维岗位”,而会先替代“运维老司机”身上那些长期靠经验、记忆和上下文拼接完成的工作方式。 真正会发生变化的,不是组织里突然没有了 SRE、平台工程师和基础设施团队,而是过去依赖少数老师傅才能完成的诊断、协同、处置和复盘,会被一批新的产品形态逐步产品化、流程化和自动化。
换句话说,被替代的首先不是人,而是“人肉系统”。
核心判断摘要
- AI 运维的短期影响,不是让企业不再需要 SRE,而是让 SRE 不再把大量时间耗在重复分诊、上下文拼接、人工拉群和标准处置上。
- 运维老司机的核心价值可以拆成五类能力:异常假设、系统地图、业务影响判断、处置边界和协同控制。
- 能真正替代这部分经验价值的,不是单个聊天机器人,而是由调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆组成的新产品栈。
- AI Agent 与 AIOps 的分界会越来越清楚:前者负责围绕目标调查、推理和行动,后者提供告警、可观测性、自动化和事件管理的工程底座。
- 短期内,AI 更适合替代高频、可证据化、可流程化、可审计的运维经验;高风险变更、跨团队博弈和最终责任仍然需要人来承担。
企业到底在为“运维老司机”的什么能力付费
所谓“老司机”,并不只是会看日志、会重启服务的人。企业真正看重的,通常是五种复合能力。
| 能力 | 运维现场里的表现 | AI 产品化方向 |
|---|---|---|
| 异常假设能力 | 从告警、日志、指标、变更和工单描述中判断问题像什么 | 调查型 Agent 自动收集证据、提出假设并验证 |
| 系统地图能力 | 知道服务依赖谁、谁负责、哪条链路最脆弱 | 服务目录、依赖图谱、运行时知识图谱 |
| 业务影响判断 | 把技术异常翻译成影响范围、优先级和升级等级 | AIOps 分诊、事件定级、影响面分析 |
| 处置边界判断 | 知道什么时候扩容、回滚、限流、切流或等待人工拍板 | 自动化执行、权限约束、风险护栏 |
| 协同控制能力 | 拉对人、同步对信息、推进工单和复盘 | Incident Management 控制台和协同工作流 |
第一,能从一堆弱信号里快速形成假设。告警、日志、指标、变更记录、依赖关系、工单描述都不完整,但老师傅能大致判断“像不像数据库抖了”“是不是某次变更引入了级联故障”。
第二,脑子里有一张隐形的系统地图。他知道服务依赖谁,谁负责,哪个链路最脆弱,哪个团队嘴上说“无状态”,实际上不能乱动。
第三,知道怎么把技术问题翻译成业务影响。不是每个 P1 都真的是 P1,也不是每个报错都值得半夜把人叫起来。老师傅擅长做这种优先级裁决。
第四,知道什么动作能做、什么动作不能做。什么时候该扩容,什么时候该回滚,什么时候只能先限流止血,什么时候必须拉业务负责人进来一起决策。
第五,能在混乱里维持协同。值班、升级、聊天群、工单系统、会议、复盘材料,很多时候靠的不是技术本身,而是有人把局面收住。
所以,AI 时代真正有替代潜力的产品,不会只是一个“会聊天的助手”,而必须能够拆解并接管以上五种能力中的一部分。
五类产品形态:AI 如何重塑 SRE 与 AIOps 产品栈
真正会起作用的,不是一款“万能 AI 运维助手”,而是一组彼此咬合的产品形态。下面这五类,是我认为最有可能在未来几年持续吃掉老师傅经验价值的方向。
| 产品形态 | 替代的老司机能力 | 关键产品能力 | 对 SRE / AIOps 的影响 |
|---|---|---|---|
| 调查型 Agent | 先看一圈、形成假设、验证证据 | 告警调查、指标/日志/trace 分析、变更比对、证据链结论 | 把故障初诊从人工经验变成结构化调查流程 |
| 指挥与协同型控制台 | 知道找谁、怎么拉齐、如何推进 | 值班、升级、拉群、工单、状态同步、AI responders | 把 Incident Management 从接警系统升级为运营控制台 |
| 自动化执行与护栏系统 | 敢不敢动、怎么动才安全 | runbook、自动修复、审批、回退、审计、爆炸半径控制 | 让 AI 从建议机器走向可控执行 |
| 平台工程化产品 | 靠老师傅兜底的非标准环境经验 | 标准部署、回滚、服务目录、配置权限、可观测性基线 | 在事故前减少对个人经验的依赖 |
| 组织记忆系统 | 只有老员工记得的上下文 | 调查上下文、历史事故、变更、负责人、处置结果沉淀 | 形成运行时知识图谱,削弱个人记忆垄断 |
1. 调查型 Agent:把“先看一圈再下判断”的经验产品化
第一类形态,是调查型 Agent。它们最接近“老司机看盘”的核心能力。
这类产品的目标,不是回答一个自然语言问题,而是围绕故障或异常,自动执行一轮结构化调查:读取告警、拉取相关指标、检查日志与 trace、比对最近变更、分析依赖影响面,再形成若干假设并持续验证,最后给出一个有证据链支撑的结论。
这个方向已经非常明确。微软的 Azure Copilot observability agent 文档写得很直白:当用户从告警发起调查时,系统会自动分析 metrics、logs 和相关 Azure 资源,给出“发生了什么、可能原因、下一步建议”,并且可以把完整调查上下文、对话过程和推理过程保存到 Azure Monitor issue 中。Datadog 的 Bits AI SRE 也在往同一个方向走,它不仅支持从监控告警或 Slack 触发调查,还明确强调其调查过程是“observation, reasoning, action”的循环,最终要么给出“evidence-backed conclusion”,要么明确承认证据不足。
这件事为什么重要?因为传统 dashboard 的问题在于,它把“找证据”的负担继续留给人。而老师傅最值钱的地方,恰恰是他知道先看什么、再看什么、哪些信号应该关联起来。
调查型 Agent 的本质,就是把这种搜索路径和假设验证能力做成产品。未来最先替代老师傅的,不是聊天机器人,而是这种能直接接管初步诊断的“AI 调查员”。
误打误撞,正好在这个方向创业。这是一个激动人心的时刻,每个月甚至每周都在变化,如果您对 AI 时代的可观测性产品感兴趣,欢迎与我们联络。

2. 指挥与协同型控制台:替代“知道该找谁、怎么拉齐”的人肉调度能力
第二类形态,是指挥与协同型控制台。
很多人低估了运维工作的一个现实:故障处理从来不只是技术问题,也是一种协同问题。谁先响应、谁有权限、谁来定级、谁负责对外同步、谁负责复盘,这些流程如果靠人记忆和临场发挥,组织效率就会高度依赖少数熟手。
PagerDuty 最近两年的产品方向很有代表性。2025 年 2 月 25 日,PagerDuty 在 Spring 25 Release 中公开提出,要让 AI agents 与 responders 协同工作,并逐步让 agent 在跨工具、多步骤的 incident 处理中执行自治动作;其 Operations Cloud 也已经明确把自身定位成 “the platform for AI operations in the modern enterprise”。
这背后的信号很清楚:未来的“值班台”不再只是接警系统,而会演化成一个把告警、值班、升级路径、聊天、工单、自动化和 AI 代理统一起来的运营控制台。
这类产品替代的,不是最深的技术判断,而是老师傅常常承担的另一种隐形工作:一出事就知道要拉谁进群、该先同步谁、该走哪个流程、哪个动作需要审批、哪个动作可以自动执行。
换句话说,它替代的是“协同经验”,不是单点技术能力。
Flashduty 不只是解决 告警分散、漏报、漏处理 的问题。自动拉群、自动总结、自动触发一些动作,感兴趣的小伙伴可以看看。
3. 自动化执行与护栏系统:替代“敢不敢动、怎么动才安全”的经验判断
第三类形态,是自动化执行与护栏系统。
很多团队谈 AI 运维时,容易停留在“分析”和“建议”层面。但真正把老师傅替代掉的,不是会分析,而是会在风险可控的前提下采取动作。因为在真实生产环境里,诊断只占一半价值,另一半价值来自处置。
这个方向也已经从“讲故事”进入产品化阶段。PagerDuty 在 2025 年 4 月 16 日宣布 Automation on Alerts 正式 GA,明确提出可以在告警层触发自动修复,目标是“prevent incidents from being created in the first place”。Dynatrace 则在 2026 年 1 月 28 日发布 Dynatrace Intelligence,把路径讲得更完整:先从 AI insight 和 recommendation 开始,再进入 human-supervised automation,最终走向带有 guardrails and controls 的 autonomous operations。
这说明下一代运维产品的关键,不会只是“会不会生成 runbook”,而是能不能把以下几层一起做出来:
- 动作编排:扩容、回滚、重启、限流、切流、建单、通知、拉群、变更冻结
- 权限约束:什么人、什么服务、什么时间窗可以触发什么动作
- 风险护栏:失败回退、人工确认、分级审批、爆炸半径控制
- 审计能力:谁批准、谁执行、系统为什么这么做、结果如何
只有这四层都具备,AI 才不是“建议机器”,而是真正开始替代老师傅的处置能力。
4. 平台工程化产品:把“靠老师傅兜底”的运维前移为标准能力
第四类形态,反而不是最像 AI 的那类产品,而是平台工程化、自服务化的运维产品。
很多“老司机价值”,其实来自组织长期没有把环境标准化、发布标准化、依赖治理标准化。于是每次出问题,都要靠熟手理解某个遗留系统的脾气、某组脚本的副作用、某条链路的历史债务。
AI 时代会加速一件事:企业会越来越不愿意把这些知识继续寄存在个人身上,而会把它们前移成平台能力,例如:
- 标准化部署与回滚路径
- 默认可观测性埋点和告警基线
- 统一配置、变更、密钥和权限模型
- 服务目录、责任边界和依赖图谱
- 自服务故障自检、变更风险检查和恢复流程
这类产品看起来不像“AI agent”,但它们对老师傅的替代作用往往更深。因为它们不是在事故发生后模仿老师傅,而是在事故发生前消灭老师傅存在的必要性。
从长期看,这比单纯做一个“AI 故障助手”更接近运维体系的终局。
5. 组织记忆系统:替代“只有老员工记得”的上下文垄断
第五类形态,是组织记忆系统,或者说运行时知识图谱。
运维老师傅最难替代的,不只是会排障,而是“记得住”。他记得去年类似事故是谁处理的,记得某个服务为什么不能随便扩容,记得哪个告警经常误报,记得某次数据库参数调整后留下了什么后遗症。
AI 如果没有记忆,就只能做一次性对话;而一次性对话不可能替代老师傅。
这也是为什么我非常看重产品是否开始保存“完整调查上下文”。Azure Monitor issue 保存的不只是最终结论,还包括 supporting data、interactive conversation 和 reasoning。Datadog 也已经把 Agent Trace 作为一等视图,让调查过程中每一步证据评估和判断路径都可以回看。这里面的价值不只是透明度,更是知识沉淀的起点。
未来真正有竞争力的产品,不会只卖一个大模型入口,而会逐渐形成自己的运行时记忆层:把事故、变更、依赖、负责人、处置动作、结果反馈和经验修正连成图谱。到了那一步,老师傅最核心的护城河之一,也就是“组织记忆垄断”,才会被真正瓦解。
哪些运维工作会先被 AI 替代,哪些短期不会
如果把上面五类形态放在一起看,一个更准确的判断是:
AI 会优先替代那些高频、可证据化、可流程化、可审计的运维经验;不会优先替代那些高风险、强博弈、强业务权衡的最终责任。
短期内最容易被替代的,是:
- 一线告警分诊
- 常见故障的初步定位
- 值班协同和信息同步
- 标准化 runbook 执行
- 基于历史案例的复盘整理
短期内最难被替代的,是:
- 高风险生产变更的最终拍板
- 跨团队利益冲突下的优先级裁决
- 新型复杂事故的非标准化推理
- 技术债、组织债和业务目标之间的取舍
所以,AI 时代真正会消失的,不是“运维”这个职能,而是“靠个人经验充当系统补丁”的工作方式。
FAQ:关于 AI 运维、AIOps 和 SRE 替代的几个问题
AI 会直接替代 SRE 吗?
短期不会。更现实的变化是,AI 会替代 SRE 工作中一部分高频、重复、证据链清晰的环节,例如告警分诊、初步调查、信息同步、标准 runbook 执行和复盘整理。SRE 仍然需要负责系统可靠性目标、风险决策、架构治理和跨团队取舍。
AI Agent 和传统 AIOps 有什么区别?
传统 AIOps 更像运维数据和自动化底座,重点在告警降噪、异常检测、事件关联、可观测性和自动化流程。AI Agent 更强调围绕一个具体目标持续调查、推理、行动和记录。真正有价值的运维产品栈,往往需要两者结合:AIOps 提供数据、流程和控制面,Agent 接管部分诊断与执行任务。
为什么说替代的是“人肉系统”,不是人?
因为很多组织里的运维可靠性,实际依赖少数熟手记住系统上下文、历史事故、负责人和处置边界。这些能力本质上是系统能力缺失后的人工补丁。AI 运维产品栈要替代的,首先是这种靠个人经验维持的隐性流程,而不是把所有运维人员从组织中拿掉。
企业评估 AI 运维产品时应该看什么?
不要只看它会不会聊天,应该看它能不能形成闭环:是否能收集证据、解释推理、触发动作、控制风险、留下审计记录,并把事故上下文沉淀为组织记忆。只做自然语言入口的产品,很难真正替代运维老司机的经验价值。
结论:会赢的是新的运维产品栈
我对这个方向的最终判断很简单。
未来能替代运维“老司机”的,不会是单一的聊天入口,而会是一个新的运维产品栈:
- 上层是调查型 Agent,负责找原因
- 中层是协同型控制台,负责拉齐人和流程
- 下层是自动化与护栏系统,负责安全执行动作
- 底层是平台工程能力和组织记忆系统,负责持续减少对个人经验的依赖
谁能把“证据、推理、动作、审计、记忆”这五件事做成闭环,谁就更接近替代老师傅。谁只是把大模型包在 dashboard 外面,谁就只能做一个看起来很聪明的新入口,而不是新的运维基础设施。
这也是我对标题问题的回答:AI 时代,真正会替代运维“老司机”的,不是某个单点 AI 功能,而是一整套把隐性经验显性化、把个人判断制度化、把人肉协同系统化的产品形态。
参考信号源
- Microsoft Learn, Azure Copilot observability agent (preview)
- Microsoft Learn, Observability capabilities in Agents (preview) in Azure Copilot
- Datadog Docs, Bits AI SRE: Investigate Issues
- Datadog Docs, Bits AI SRE: Take Action
- PagerDuty Blog, Spring 25 Release: Reimagining Operations in the Age of AI and Automation
- PagerDuty Support, Automation on Alerts is now Generally Available for PagerDuty AIOps customers
- PagerDuty, Operations Cloud
- Dynatrace, Dynatrace Intelligence Redefines Observability with Trusted Agentic Automation