AI SRE 智能排障是什么
AI SRE 智能排障不是让 AI 直接替代工程师决策,而是让 AI Agent 接入可观测数据、诊断工具和事件响应流程,在故障发生后先完成高重复、强上下文依赖的排查工作。
它关注三个问题:
- 告警发出后,谁来快速收集上下文?
- 多套监控、日志、链路、事件和主机信息分散时,谁来先做根因初筛?
- 初步结论出来后,如何把诊断报告送到 On-call 流程里,推动协同和闭环?
Flashcat 的思路是把观测数据、诊断 Agent、MCP 工具调用和告警响应流程连起来,让 SRE 在故障处理时少做机械查询,多做判断和决策。
Flashcat 如何支持这个场景
Flashcat 企业版负责统一观测数据和稳定性场景,catpaw 负责在主机侧执行轻量诊断,MCP 能力把告警、监控、事件响应等能力暴露给 AI Agent,Flashduty 负责告警接收、分派、升级、触达和协同。
| 模块 | 在 AI SRE 场景中的作用 |
|---|---|
| Flashcat 企业版 | 统一 Metrics、Logs、Traces、Events、RUM、告警和业务稳定性视图,为 AI 分析提供可查询、可关联的观测上下文。 |
| catpaw | 轻量监控与诊断 Agent,覆盖磁盘、证书、conntrack 等风险点,告警后可调用诊断工具生成初步分析。 |
| catpaw chat | 通过自然语言执行 Linux 排障,覆盖 CPU、内存、OOM、磁盘 I/O、网络连接、conntrack、进程和线程等高频场景。 |
| MCP 能力 | 将 Flashcat 的告警、目标监控、事件响应、团队协作、数据源查询等能力暴露给 AI Agent 调用。 |
| Flashduty | 统一接收告警,完成降噪、分派、排班、升级、触达和处理效率分析,把诊断结论带入 On-call 流程。 |
| RUM | 从真实用户体验侧补充性能、错误、会话重放和用户影响范围,帮助判断故障对业务体验的影响。 |
典型处理流程
- 告警触发:Flashcat 或已有监控系统产生告警,Flashduty 统一接收并降噪聚合。
- 上下文收集:AI Agent 读取告警、指标、日志、链路、事件墙、北极星、灭火图和相关主机信息。
- 工具调用:catpaw 在主机侧执行诊断命令或检查插件,补充系统层证据。
- 根因初筛:AI 结合观测数据、诊断输出和变更事件生成初步判断。
- 报告推送:诊断结论随告警进入 On-call 流程,值班人基于证据继续确认、止损和协同。
- 复盘沉淀:处理过程、诊断结论和关键证据沉淀为后续排障知识。
适合什么团队
这类方案适合已经有一定监控基础,但故障处理仍然依赖人工到处查数据的团队。
- 监控系统多,告警、日志、链路和事件数据分散。
- 告警发出后,需要工程师手工登录机器、查日志、查指标、问上下文。
- On-call 压力大,夜间故障初筛成本高。
- 希望用 AI 提升故障处理效率,但不希望把生产系统控制权直接交给 AI。
- 希望在私有化环境、内网环境或受控权限下使用智能排障能力。
不适合什么情况
如果系统没有基础监控、日志缺失严重、告警规则长期不可用,AI Agent 很难直接给出可靠判断。此时应先补齐基础观测能力、告警治理和数据质量,再引入智能排障。
如果团队希望 AI 自动执行高风险变更,例如重启核心服务、修改生产配置、自动回滚业务版本,也需要先建立明确的权限、审批和审计边界。