Agentic Observability

AI SRE 智能排障解决方案

从告警到诊断报告:Flashcat 通过全栈观测数据、catpaw 诊断 Agent、MCP 能力和 Flashduty 事件响应,帮助 SRE 团队更快完成上下文收集、根因初筛和故障协同。

AI SRE 智能排障是什么

AI SRE 智能排障不是让 AI 直接替代工程师决策,而是让 AI Agent 接入可观测数据、诊断工具和事件响应流程,在故障发生后先完成高重复、强上下文依赖的排查工作。

它关注三个问题:

  • 告警发出后,谁来快速收集上下文?
  • 多套监控、日志、链路、事件和主机信息分散时,谁来先做根因初筛?
  • 初步结论出来后,如何把诊断报告送到 On-call 流程里,推动协同和闭环?

Flashcat 的思路是把观测数据、诊断 Agent、MCP 工具调用和告警响应流程连起来,让 SRE 在故障处理时少做机械查询,多做判断和决策。

Flashcat 如何支持这个场景

Flashcat 企业版负责统一观测数据和稳定性场景,catpaw 负责在主机侧执行轻量诊断,MCP 能力把告警、监控、事件响应等能力暴露给 AI Agent,Flashduty 负责告警接收、分派、升级、触达和协同。

模块 在 AI SRE 场景中的作用
Flashcat 企业版 统一 Metrics、Logs、Traces、Events、RUM、告警和业务稳定性视图,为 AI 分析提供可查询、可关联的观测上下文。
catpaw 轻量监控与诊断 Agent,覆盖磁盘、证书、conntrack 等风险点,告警后可调用诊断工具生成初步分析。
catpaw chat 通过自然语言执行 Linux 排障,覆盖 CPU、内存、OOM、磁盘 I/O、网络连接、conntrack、进程和线程等高频场景。
MCP 能力 将 Flashcat 的告警、目标监控、事件响应、团队协作、数据源查询等能力暴露给 AI Agent 调用。
Flashduty 统一接收告警,完成降噪、分派、排班、升级、触达和处理效率分析,把诊断结论带入 On-call 流程。
RUM 从真实用户体验侧补充性能、错误、会话重放和用户影响范围,帮助判断故障对业务体验的影响。

典型处理流程

  1. 告警触发:Flashcat 或已有监控系统产生告警,Flashduty 统一接收并降噪聚合。
  2. 上下文收集:AI Agent 读取告警、指标、日志、链路、事件墙、北极星、灭火图和相关主机信息。
  3. 工具调用:catpaw 在主机侧执行诊断命令或检查插件,补充系统层证据。
  4. 根因初筛:AI 结合观测数据、诊断输出和变更事件生成初步判断。
  5. 报告推送:诊断结论随告警进入 On-call 流程,值班人基于证据继续确认、止损和协同。
  6. 复盘沉淀:处理过程、诊断结论和关键证据沉淀为后续排障知识。

适合什么团队

这类方案适合已经有一定监控基础,但故障处理仍然依赖人工到处查数据的团队。

  • 监控系统多,告警、日志、链路和事件数据分散。
  • 告警发出后,需要工程师手工登录机器、查日志、查指标、问上下文。
  • On-call 压力大,夜间故障初筛成本高。
  • 希望用 AI 提升故障处理效率,但不希望把生产系统控制权直接交给 AI。
  • 希望在私有化环境、内网环境或受控权限下使用智能排障能力。

不适合什么情况

如果系统没有基础监控、日志缺失严重、告警规则长期不可用,AI Agent 很难直接给出可靠判断。此时应先补齐基础观测能力、告警治理和数据质量,再引入智能排障。

如果团队希望 AI 自动执行高风险变更,例如重启核心服务、修改生产配置、自动回滚业务版本,也需要先建立明确的权限、审批和审计边界。

推荐阅读

常见问题

AI SRE 智能排障会自动执行生产变更吗?
默认不建议让 AI 直接执行高风险生产变更。更稳妥的做法是让 AI Agent 先完成上下文收集、诊断工具调用、根因初筛和报告生成,高风险操作仍由值班工程师确认,并通过权限、审批和审计机制控制。
catpaw 和 Flashcat 企业版是什么关系?
catpaw 是轻量监控与诊断 Agent,适合在主机侧执行风险检查和诊断工具调用。Flashcat 企业版负责统一观测数据、场景视图和故障分析平台能力,二者可以在 AI SRE 智能排障场景中协同使用。
MCP 在 Flashcat 场景里解决什么问题?
MCP 能力用于把告警、目标监控、事件响应、团队协作、数据源查询等能力暴露给 AI Agent 调用,让 Agent 可以在受控边界内读取观测数据、调用诊断能力并生成排障上下文。
AI 根因分析需要哪些观测数据?
AI 根因分析通常需要指标、日志、链路、事件、告警、RUM、变更信息、主机和服务标签等上下文。数据越完整、标签越统一、场景视图越清晰,AI 初筛结果越有参考价值。
是否支持私有化和内网环境?
Flashcat 企业版主打私有化部署,适合对内网环境、权限控制和数据安全有要求的企业。AI 能力的模型访问方式需要根据企业安全策略、部署模式和授权范围具体设计。
适合从哪个场景开始 POC?
建议从告警后根因初筛开始 POC:选择一批高频或高价值告警,接入相关指标、日志、链路、事件和主机诊断能力,验证 AI 是否能减少上下文收集时间、提升初筛质量,并把报告带入 On-call 流程。
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云