Agentic Observability

AI SRE 智能排障解决方案

从告警到诊断报告：Flashcat 通过全栈观测数据、catpaw 诊断 Agent、MCP 能力和 Flashduty 事件响应，帮助 SRE 团队更快完成上下文收集、根因初筛和故障协同。

AI SRE 智能排障是什么

AI SRE 智能排障不是让 AI 直接替代工程师决策，而是让 AI Agent 接入可观测数据、诊断工具和事件响应流程，在故障发生后先完成高重复、强上下文依赖的排查工作。

它关注三个问题：

告警发出后，谁来快速收集上下文？
多套监控、日志、链路、事件和主机信息分散时，谁来先做根因初筛？
初步结论出来后，如何把诊断报告送到 On-call 流程里，推动协同和闭环？

Flashcat 的思路是把观测数据、诊断 Agent、MCP 工具调用和告警响应流程连起来，让 SRE 在故障处理时少做机械查询，多做判断和决策。

Flashcat 如何支持这个场景

Flashcat 企业版负责统一观测数据和稳定性场景，catpaw 负责在主机侧执行轻量诊断，MCP 能力把告警、监控、事件响应等能力暴露给 AI Agent，Flashduty 负责告警接收、分派、升级、触达和协同。

模块	在 AI SRE 场景中的作用
Flashcat 企业版	统一 Metrics、Logs、Traces、Events、RUM、告警和业务稳定性视图，为 AI 分析提供可查询、可关联的观测上下文。
catpaw	轻量监控与诊断 Agent，覆盖磁盘、证书、conntrack 等风险点，告警后可调用诊断工具生成初步分析。
catpaw chat	通过自然语言执行 Linux 排障，覆盖 CPU、内存、OOM、磁盘 I/O、网络连接、conntrack、进程和线程等高频场景。
MCP 能力	将 Flashcat 的告警、目标监控、事件响应、团队协作、数据源查询等能力暴露给 AI Agent 调用。
Flashduty	统一接收告警，完成降噪、分派、排班、升级、触达和处理效率分析，把诊断结论带入 On-call 流程。
RUM	从真实用户体验侧补充性能、错误、会话重放和用户影响范围，帮助判断故障对业务体验的影响。

典型处理流程

告警触发：Flashcat 或已有监控系统产生告警，Flashduty 统一接收并降噪聚合。
上下文收集：AI Agent 读取告警、指标、日志、链路、事件墙、北极星、灭火图和相关主机信息。
工具调用：catpaw 在主机侧执行诊断命令或检查插件，补充系统层证据。
根因初筛：AI 结合观测数据、诊断输出和变更事件生成初步判断。
报告推送：诊断结论随告警进入 On-call 流程，值班人基于证据继续确认、止损和协同。
复盘沉淀：处理过程、诊断结论和关键证据沉淀为后续排障知识。

适合什么团队

这类方案适合已经有一定监控基础，但故障处理仍然依赖人工到处查数据的团队。

监控系统多，告警、日志、链路和事件数据分散。
告警发出后，需要工程师手工登录机器、查日志、查指标、问上下文。
On-call 压力大，夜间故障初筛成本高。
希望用 AI 提升故障处理效率，但不希望把生产系统控制权直接交给 AI。
希望在私有化环境、内网环境或受控权限下使用智能排障能力。

不适合什么情况

如果系统没有基础监控、日志缺失严重、告警规则长期不可用，AI Agent 很难直接给出可靠判断。此时应先补齐基础观测能力、告警治理和数据质量，再引入智能排障。

如果团队希望 AI 自动执行高风险变更，例如重启核心服务、修改生产配置、自动回滚业务版本，也需要先建立明确的权限、审批和审计边界。

推荐阅读

常见问题

AI SRE 智能排障会自动执行生产变更吗？

默认不建议让 AI 直接执行高风险生产变更。更稳妥的做法是让 AI Agent 先完成上下文收集、诊断工具调用、根因初筛和报告生成，高风险操作仍由值班工程师确认，并通过权限、审批和审计机制控制。

catpaw 和 Flashcat 企业版是什么关系？

catpaw 是轻量监控与诊断 Agent，适合在主机侧执行风险检查和诊断工具调用。Flashcat 企业版负责统一观测数据、场景视图和故障分析平台能力，二者可以在 AI SRE 智能排障场景中协同使用。

MCP 在 Flashcat 场景里解决什么问题？

MCP 能力用于把告警、目标监控、事件响应、团队协作、数据源查询等能力暴露给 AI Agent 调用，让 Agent 可以在受控边界内读取观测数据、调用诊断能力并生成排障上下文。

AI 根因分析需要哪些观测数据？

AI 根因分析通常需要指标、日志、链路、事件、告警、RUM、变更信息、主机和服务标签等上下文。数据越完整、标签越统一、场景视图越清晰，AI 初筛结果越有参考价值。

是否支持私有化和内网环境？

Flashcat 企业版主打私有化部署，适合对内网环境、权限控制和数据安全有要求的企业。AI 能力的模型访问方式需要根据企业安全策略、部署模式和授权范围具体设计。

适合从哪个场景开始 POC？

建议从告警后根因初筛开始 POC：选择一批高频或高价值告警，接入相关指标、日志、链路、事件和主机诊断能力，验证 AI 是否能减少上下文收集时间、提升初筛质量，并把报告带入 On-call 流程。

快猫星云联系方式

快猫星云联系方式

快猫星云联系方式

快猫星云Email

申请技术交流产品试用

快猫星云

产品

可私有化部署的全栈智能观测平台

SaaS 化的智能告警响应平台

SaaS 化的真实用户监控平台

开源项目

云原生监控告警系统

All-in-one 数据采集器

客户成功案例合集

开发者中心

集成开发文档与工具

产品使用指南与 API 参考

获取最新安装包与工具

产品演示与教程

技术分享与行业话题