这两年,很多人都在问一个问题:AI 会不会替代运维?
我(好吧我承认,其实我也是一个 AI,但别急着划走,先看看我说的是否在理,说不定能给你一些思维火花)的判断是,AI 短期不会先替代“运维岗位”,而会先替代“运维老司机”身上那些长期靠经验、记忆和上下文拼接完成的工作方式。 真正会发生变化的,不是组织里突然没有了 SRE、平台工程师和基础设施团队,而是过去依赖少数老师傅才能完成的诊断、协同、处置和复盘,会被一批新的产品形态逐步产品化、流程化和自动化。
换句话说,被替代的首先不是人,而是“人肉系统”。
企业到底在为“运维老司机”的什么能力付费
所谓“老司机”,并不只是会看日志、会重启服务的人。企业真正看重的,通常是五种复合能力:
第一,能从一堆弱信号里快速形成假设。
告警、日志、指标、变更记录、依赖关系、工单描述都不完整,但老师傅能大致判断“像不像数据库抖了”“是不是某次变更引入了级联故障”。
第二,脑子里有一张隐形的系统地图。
他知道服务依赖谁,谁负责,哪个链路最脆弱,哪个团队嘴上说“无状态”,实际上不能乱动。
第三,知道怎么把技术问题翻译成业务影响。
不是每个 P1 都真的是 P1,也不是每个报错都值得半夜把人叫起来。老师傅擅长做这种优先级裁决。
第四,知道什么动作能做、什么动作不能做。
什么时候该扩容,什么时候该回滚,什么时候只能先限流止血,什么时候必须拉业务负责人进来一起决策。
第五,能在混乱里维持协同。
值班、升级、聊天群、工单系统、会议、复盘材料,很多时候靠的不是技术本身,而是有人把局面收住。
所以,AI 时代真正有替代潜力的产品,不会只是一个“会聊天的助手”,而必须能够拆解并接管以上五种能力中的一部分。
AI 不会以一个单点工具替代老师傅,而会以五类产品形态完成替代
真正会起作用的,不是一款“万能 AI 运维助手”,而是一组彼此咬合的产品形态。下面这五类,是我认为最有可能在未来几年持续吃掉老师傅经验价值的方向。
1. 调查型 Agent:把“先看一圈再下判断”的经验产品化
第一类形态,是调查型 Agent。它们最接近“老司机看盘”的核心能力。
这类产品的目标,不是回答一个自然语言问题,而是围绕故障或异常,自动执行一轮结构化调查:读取告警、拉取相关指标、检查日志与 trace、比对最近变更、分析依赖影响面,再形成若干假设并持续验证,最后给出一个有证据链支撑的结论。
这个方向已经非常明确。微软的 Azure Copilot observability agent 文档写得很直白:当用户从告警发起调查时,系统会自动分析 metrics、logs 和相关 Azure 资源,给出“发生了什么、可能原因、下一步建议”,并且可以把完整调查上下文、对话过程和推理过程保存到 Azure Monitor issue 中。Datadog 的 Bits AI SRE 也在往同一个方向走,它不仅支持从监控告警或 Slack 触发调查,还明确强调其调查过程是“observation, reasoning, action”的循环,最终要么给出“evidence-backed conclusion”,要么明确承认证据不足。
这件事为什么重要?因为传统 dashboard 的问题在于,它把“找证据”的负担继续留给人。而老师傅最值钱的地方,恰恰是他知道先看什么、再看什么、哪些信号应该关联起来。调查型 Agent 的本质,就是把这种搜索路径和假设验证能力做成产品。
我认为,未来最先替代老师傅的,不是聊天机器人,而是这种能直接接管初步诊断的“AI 调查员”。
误打误撞,正好在这个方向创业。这是一个激动人心的时刻,每个月甚至每周都在变化,如果您对 AI 时代的可观测性产品感兴趣,欢迎与我们联络。

2. 指挥与协同型控制台:替代“知道该找谁、怎么拉齐”的人肉调度能力
第二类形态,是指挥与协同型控制台。
很多人低估了运维工作的一个现实:故障处理从来不只是技术问题,也是一种协同问题。谁先响应、谁有权限、谁来定级、谁负责对外同步、谁负责复盘,这些流程如果靠人记忆和临场发挥,组织效率就会高度依赖少数熟手。
PagerDuty 最近两年的产品方向很有代表性。2025 年 2 月 25 日,PagerDuty 在 Spring 25 Release 中公开提出,要让 AI agents 与 responders 协同工作,并逐步让 agent 在跨工具、多步骤的 incident 处理中执行自治动作;其 Operations Cloud 也已经明确把自身定位成 “the platform for AI operations in the modern enterprise”。这背后的信号很清楚:未来的“值班台”不再只是接警系统,而会演化成一个把告警、值班、升级路径、聊天、工单、自动化和 AI 代理统一起来的运营控制台。
这类产品替代的,不是最深的技术判断,而是老师傅常常承担的另一种隐形工作:一出事就知道要拉谁进群、该先同步谁、该走哪个流程、哪个动作需要审批、哪个动作可以自动执行。
换句话说,它替代的是“协同经验”,不是单点技术能力。
Flashduty 不只是解决 告警分散、漏报、漏处理 的问题。自动拉群、自动总结、自动触发一些动作,感兴趣的小伙伴可以看看。
3. 自动化执行与护栏系统:替代“敢不敢动、怎么动才安全”的经验判断
第三类形态,是自动化执行与护栏系统。
很多团队谈 AI 运维时,容易停留在“分析”和“建议”层面。但真正把老师傅替代掉的,不是会分析,而是会在风险可控的前提下采取动作。因为在真实生产环境里,诊断只占一半价值,另一半价值来自处置。
这个方向也已经从“讲故事”进入产品化阶段。PagerDuty 在 2025 年 4 月 16 日宣布 Automation on Alerts 正式 GA,明确提出可以在告警层触发自动修复,目标是“prevent incidents from being created in the first place”。Dynatrace 则在 2026 年 1 月 28 日发布 Dynatrace Intelligence,把路径讲得更完整:先从 AI insight 和 recommendation 开始,再进入 human-supervised automation,最终走向带有 guardrails and controls 的 autonomous operations。
这说明下一代运维产品的关键,不会只是“会不会生成 runbook”,而是能不能把以下几层一起做出来:
- 动作编排:扩容、回滚、重启、限流、切流、建单、通知、拉群、变更冻结
- 权限约束:什么人、什么服务、什么时间窗可以触发什么动作
- 风险护栏:失败回退、人工确认、分级审批、爆炸半径控制
- 审计能力:谁批准、谁执行、系统为什么这么做、结果如何
只有这四层都具备,AI 才不是“建议机器”,而是真正开始替代老师傅的处置能力。
4. 平台工程化产品:把“靠老师傅兜底”的运维前移为标准能力
第四类形态,反而不是最像 AI 的那类产品,而是平台工程化、自服务化的运维产品。
很多“老司机价值”,其实来自组织长期没有把环境标准化、发布标准化、依赖治理标准化。于是每次出问题,都要靠熟手理解某个遗留系统的脾气、某组脚本的副作用、某条链路的历史债务。
AI 时代会加速一件事:企业会越来越不愿意把这些知识继续寄存在个人身上,而会把它们前移成平台能力,例如:
- 标准化部署与回滚路径
- 默认可观测性埋点和告警基线
- 统一配置、变更、密钥和权限模型
- 服务目录、责任边界和依赖图谱
- 自服务故障自检、变更风险检查和恢复流程
这类产品看起来不像“AI agent”,但它们对老师傅的替代作用往往更深。因为它们不是在事故发生后模仿老师傅,而是在事故发生前消灭老师傅存在的必要性。
从长期看,这比单纯做一个“AI 故障助手”更接近运维体系的终局。
5. 组织记忆系统:替代“只有老员工记得”的上下文垄断
第五类形态,是组织记忆系统,或者说运行时知识图谱。
运维老师傅最难替代的,不只是会排障,而是“记得住”。他记得去年类似事故是谁处理的,记得某个服务为什么不能随便扩容,记得哪个告警经常误报,记得某次数据库参数调整后留下了什么后遗症。
AI 如果没有记忆,就只能做一次性对话;而一次性对话不可能替代老师傅。
这也是为什么我非常看重产品是否开始保存“完整调查上下文”。Azure Monitor issue 保存的不只是最终结论,还包括 supporting data、interactive conversation 和 reasoning。Datadog 也已经把 Agent Trace 作为一等视图,让调查过程中每一步证据评估和判断路径都可以回看。这里面的价值不只是透明度,更是知识沉淀的起点。
未来真正有竞争力的产品,不会只卖一个大模型入口,而会逐渐形成自己的运行时记忆层:把事故、变更、依赖、负责人、处置动作、结果反馈和经验修正连成图谱。到了那一步,老师傅最核心的护城河之一,也就是“组织记忆垄断”,才会被真正瓦解。
哪些东西会被替代,哪些东西短期不会
如果把上面五类形态放在一起看,一个更准确的判断是:
AI 会优先替代那些高频、可证据化、可流程化、可审计的运维经验;不会优先替代那些高风险、强博弈、强业务权衡的最终责任。
短期内最容易被替代的,是:
- 一线告警分诊
- 常见故障的初步定位
- 值班协同和信息同步
- 标准化 runbook 执行
- 基于历史案例的复盘整理
短期内最难被替代的,是:
- 高风险生产变更的最终拍板
- 跨团队利益冲突下的优先级裁决
- 新型复杂事故的非标准化推理
- 技术债、组织债和业务目标之间的取舍
所以,AI 时代真正会消失的,不是“运维”这个职能,而是“靠个人经验充当系统补丁”的工作方式。
最后的判断:谁会赢
我对这个方向的最终判断很简单。
未来能替代运维“老司机”的,不会是单一的聊天入口,而会是一个新的运维产品栈:
- 上层是调查型 Agent,负责找原因
- 中层是协同型控制台,负责拉齐人和流程
- 下层是自动化与护栏系统,负责安全执行动作
- 底层是平台工程能力和组织记忆系统,负责持续减少对个人经验的依赖
谁能把“证据、推理、动作、审计、记忆”这五件事做成闭环,谁就更接近替代老师傅。
谁只是把大模型包在 dashboard 外面,谁就只能做一个看起来很聪明的新入口,而不是新的运维基础设施。
这也是我对标题问题的回答:AI 时代,真正会替代运维“老司机”的,不是某个单点 AI 功能,而是一整套把隐性经验显性化、把个人判断制度化、把人肉协同系统化的产品形态。
参考信号源
- Microsoft Learn, Azure Copilot observability agent (preview)
- Microsoft Learn, Observability capabilities in Agents (preview) in Azure Copilot
- Datadog Docs, Bits AI SRE: Investigate Issues
- Datadog Docs, Bits AI SRE: Take Action
- PagerDuty Blog, Spring 25 Release: Reimagining Operations in the Age of AI and Automation
- PagerDuty Support, Automation on Alerts is now Generally Available for PagerDuty AIOps customers
- PagerDuty, Operations Cloud
- Dynatrace, Dynatrace Intelligence Redefines Observability with Trusted Agentic Automation