FlashAI:从观测系统到 AI SRE 的 Agent 化演进

Flashcat 即将发布全新 AI-Native 版本。通过内置智能代理 FlashAI,用户无需手动操作复杂工具链,即可通过自然语言完成告警分析、链路排查与根因定位(RCA),让 AI 从辅助分析走向参与决策与执行,重塑可观测性系统的使用方式。

作者 Flashcat 技术

FlashAI:用自然语言驱动可观测性分析、建设与巡检

从观测系统到 AI SRE 的 Agent 化演进

Flashcat 即将发布全新 AI-Native 版本。通过内置智能代理 FlashAI,用户无需手动操作复杂工具链,即可通过自然语言完成告警分析、链路排查与根因定位(RCA),让 AI 从辅助分析走向参与决策与执行,重塑可观测性系统的使用方式。

什么是 FlashAI

FlashAI 是 Flashcat 平台的智能代理(AI Agent),用于统一驱动可观测性系统的分析与操作。它并非单一的聊天功能,而是将大模型、专家知识库与可观测系统能力深度融合,使用户可以通过自然语言完成原本需要跨多个模块与步骤的运维工作。从数据采集、故障定位、定时巡检,到灭火图/告警/仪表盘的建设与治理,FlashAI 都可以直接参与并执行,显著降低操作复杂度,提升问题处理效率。

简单来说,可以把 FlashAI 看作一位不眠不休的 SRE 专家:

  • 懂 Flashcat:熟悉灭火图、北极星、告警、仪表盘、事件墙等所有模块的用法和最佳实践;
  • 懂可观测性:积累了指标、日志、链路、事件等信号的常见分析方法和故障特征;
  • 懂你的系统:通过集成企业内部数据源、打通数据孤岛,自动创建和维护企业内部IT知识图谱,以及结合你在知识库中补充的业务背景,输出贴合你环境的结论;
  • 能动手干活:不只是分析和洞察,还能直接在 Flashcat 平台上完成创建规则、配置告警、生成报告、发送通知等具体操作;

如何与 FlashAI 交互

FlashAI 提供了多种交互入口,覆盖「在对话窗中随时提问」「在异常点一键发起分析」「设置定时任务定时触发」等常见场景。

使用 FlashAI 前,需要先完成基座大模型接入。

方式一:FlashAI 对话窗(最常用)

Flashcat 平台的灭火图、仪表盘、告警事件等页面右下角都有一个 FlashAI 按钮,点击即可呼出对话窗,用自然语言提问或下达指令。对话窗支持多轮交互,能够保留上下文,可以从「概览」逐步追问到「细节」。

方式二:在异常点随时一键触发 AI 分析

灭火图卡片飘红时,卡片右上角会出现 AI 分析按钮。点击后 FlashAI 会自动读取该卡片的指标、日志、链路等下钻数据,输出根因分析和处理建议,无需手动输入 Prompt

告警通知中也可以携带 AI 分析链接,收到告警时直接点击跳转到 FlashAI 的分析结果页面,实现「告警->排查 即时联动」。

方式三:定时任务

可以设置定时任务,典型场景如周期性巡检,FlashAI 会自动生成巡检报告(异常卡片总结、隐患指标预警、问题根因分析汇总等),支持通过邮件发出巡检报告。


FlashAI 能为你做什么

FlashAI 的能力可以归为「分析洞察」「平台操作」「知识答疑」三大类。下表汇总了主要能力,每条能力都可以通过对话窗用自然语言触发。

分析洞察类

能力 说明 触发入口
灭火图根因分析 对异常卡片自动遍历指标 / 日志 / 链路下钻数据,给出异常原因和处理建议 卡片 AI 按钮 / 对话窗
灭火图健康巡检 按时间窗口分析灭火图整体状态,输出异常时间分布、隐患清单和治理建议 对话窗 / SLO AI 巡检
告警根因分析 针对灭火图告警事件,结合相关卡片、指标、日志等数据分析触发原因 告警事件页 / 对话窗
告警趋势分析 按时段统计告警分布、识别高频告警和潜在抖动规则 对话窗
北极星业务诊断 分析业务线 SLO、核心指标的异常和劣化趋势 对话窗
仪表盘智能解读 解释图表中的指标含义、识别趋势异常 仪表盘页 AI 按钮
隐患指标预警 基于机器学习算法识别尚未达到异常阈值、但已有风险的指标 SLO AI 巡检

平台操作类

能力 说明
灭火图建设 从数据源中发现指标 → 自动生成卡片规则 / 下钻规则 / 告警规则
告警规则配置 一句话创建/修改告警规则,自动绑定通知规则
告警屏蔽 在指定时间窗口为指定对象创建维护期屏蔽
北极星指标 / 业务线 / 大屏建设 创建指标、业务线、大屏,绑定检测算法和告警规则
事件墙视图配置 创建事件视图,配置可用事件类型与聚合方式
仪表盘创建 在指定业务组下创建仪表盘,按描述生成图表配置
基础设施管理 查询机器列表、按关键词搜索、批量打/改标签
采集配置管理 创建/修改 Categraf 采集配置,支持「先测试再下发」
巡检报告 + 邮件发送 生成 HTML 格式巡检报告并通过 Flashcat 邮件通道发送

平台操作类能力的执行效果等同于你在控制台手动操作;当前版本为安全起见,所有删除类操作不会自动执行,FlashAI 会提示你到对应页面手动确认删除。

知识答疑类

能力 说明
Flashcat 平台答疑 数据如何采集?告警如何配置?灭火图如何建设?等使用问题
可观测性最佳实践 系统接入观测的建议、SLO 设计、告警分级、根因分析方法等
灭火图建设方案规划 根据系统模块描述,给出分层结构、卡片划分、下钻路径建议

你可以向 FlashAI 发起哪些问题和指令

下面按场景给出常用的提问和指令模板,直接复制到对话窗替换花括号即可使用

1. 故障定位 / 根因分析

请分析空间 spacex 灭火图最近一次异常的根因,列出所有飘红卡片,并给出处理建议。
spacex 空间的 MySQL 卡片刚才飘红了,请结合指标、慢日志和链路数据分析原因。
请分析空间 spacex 灭火图中「组件」分层下所有异常卡片的关联性,判断是否存在共同的根因。
当前有哪些未恢复的 Critical 告警?请按业务组聚合,给出每条告警的可能原因。

2. 日常巡检 / 报告生成

请巡检空间 spacex 最近 24 小时的灭火图状态,生成 HTML 格式的巡检报告,
包含异常时间分布、隐患清单和治理建议,并发送到 sre@corp.com。
请对比 spacex 空间昨天和今天的灭火图异常情况,识别新增异常和反复出现的问题。
请巡检 Flashcat-ops 业务组下所有 Critical 告警规则的触发频次,识别可能误报或抖动严重的规则。

3. 灭火图建设 / 治理

请从 Prometheus 数据源 Flashcat_metrics 中发现 MySQL 相关指标,
在 spacex 空间创建灭火图卡片规则,并为生成的卡片创建关联慢日志的下钻规则,
最后创建告警规则,异常时发送到通知规则「运维告警」。
我有一个电商系统,包含订单、支付、用户三个微服务,MySQL 和 Redis 两个组件,
请规划灭火图建设方案,建议合理的分层结构和观测指标。
请检查空间 spacex 的灭火图,找出哪些卡片缺少下钻规则、哪些分层缺少告警规则。

4. 北极星(业务核心指标)

查看北极星有哪些业务线?哪些业务线正在告警?
请分析最近 7 天北极星指标「订单量」的趋势变化,识别异常时段并解释原因。
请帮我建设一条名为「电商交易」的北极星业务线,核心指标为订单量、支付成功率、下单 P99 耗时。

5. 告警管理

在 Flashcat-ops 业务组创建一个 CPU 使用率超 90% 持续 5 分钟的告警规则,
发送到通知规则「运维告警」。
屏蔽 db-server-01 在今晚 22:00 到 02:00 的告警(计划维护窗口)。
昨天 14:00 到 15:00 之间发生了哪些告警事件?按业务组和严重级别汇总。

6. 仪表盘

查看 Flashcat-ops 业务组下有哪些仪表盘?
在 Flashcat-ops 业务组创建一个 Redis 监控仪表盘,包含 QPS、内存使用率、连接数图表。
请解读 MySQL Dashboard 当前的指标趋势,识别可能的性能瓶颈。

7. 基础设施 / 采集

列出所有机器及其 CPU、内存使用率,按 CPU 利用率倒序排列。
查找名称包含 mysql 的机器,并给它们打上 role=db 标签。
为业务组 Flashcat-ops 下所有标签为 role=db 的机器,下发 MySQL 采集配置(先测试后下发),采集本机的 MySQL 实例。

8. 数据查询

请查询  Flashcat-logs 日志系统 application 表中,最近 1 小时 order-service 的错误日志,按错误类型分组统计。
请从 Flashcat_metrics 数据源查询 PromQL:
sum(rate(http_requests_total{job="order-service",code=~"5.."}[5m])) by (instance)
分析最近 1 小时的趋势。
请从 Flashcat—APM 数据源查询 trace_id=abcd1234sdsfs2rt878sd 的链路详情,定位耗时最长的 span。

9. 知识答疑

Flashcat 中如何配置基于日志的告警规则?
灭火图的卡片规则、下钻规则、告警规则分别是什么作用?建设的推荐顺序是什么?
Flashcat 落地的最佳实践是什么?

多轮对话:从概览到细节

FlashAI 支持多轮对话,前一轮的上下文会被保留,建议复杂分析分步进行,效果会更好:

你:请查看 spacex 灭火图当前的异常卡片有哪些?
AI:(返回异常卡片列表)

你:请展开分析 Redis 卡片的异常详情,重点看内存和慢命令。
AI:(拉取相关指标和日志,给出分析)

你:请把以上分析整理成 HTML 格式的报告,发送到 sre@corp.com。
AI:(生成报告并通过邮件发送)

FlashAI 依赖什么

FlashAI 依赖两类模型协同工作:

  • 私有化模型:Flashcat 针对可观测场景定制的小模型,部署 Flashcat 时自带,无需额外配置;
  • 基座大模型:用户环境对接的通用大模型(DeepSeek、通义千问、OpenAI、私有化部署模型等),负责理解用户意图、综合分析数据、生成结论。

推荐选用参数量较大、且支持 Function Calling 的基座模型,分析效果更佳。


传统方式 vs FlashAI

以下对比展示了在常见场景中,传统手动操作与使用 FlashAI 的效率差异:

故障定位场景

步骤 传统方式 FlashAI
感知异常 收到告警,登录平台 收到告警,点击 AI 分析按钮
查看全局 打开灭火图,逐层查看飘红范围 AI 自动获取灭火图状态和异常卡片列表
下钻分析 逐个点击异常卡片,手动查看指标、日志、链路 AI 自动遍历所有下钻数据并分析
根因判断 人工关联多维度数据,凭经验推断 AI 综合分析后输出根因结论和处理建议
耗时 30-60 分钟(取决于系统复杂度) 2-5 分钟

日常巡检场景

步骤 传统方式 FlashAI
检查状态 打开灭火图,逐个空间查看时间轴 输入"请巡检 spacex 灭火图"
分析异常 手动记录飘红时段和异常卡片 AI 自动分析异常时间分布和隐患
撰写报告 手动编写巡检报告并发送 AI 生成 HTML 报告并自动发送邮件
耗时 1-2 小时 3-5 分钟

灭火图建设场景

步骤 传统方式 FlashAI
分析数据源 手动查看数据源中有哪些指标 AI 自动发现和分类可用指标
创建卡片规则 逐条规则手动填写筛选条件、路径、指标等 AI 自动生成规则配置并提交
创建下钻规则 逐条卡片规则分析并创建下钻路径 AI 自动关联日志、链路等下钻数据
配置告警 手动创建告警规则并关联通知渠道 AI 一句话完成告警配置
耗时 数小时到数天(取决于系统规模) 5-15 分钟

如何让 FlashAI 发挥最大价值

FlashAI 的输出质量,取决于「模型能力」「数据完备程度」「业务背景信息」三方面。建议从以下几点持续完善:

  1. 选用能力较强的基座模型:推荐参数量较大、且支持 Function Calling 的模型。
  2. 建设灭火图并完善下钻规则:下钻规则越完整,AI 在故障分析时可关联的指标、日志、链路维度越多,根因判断越准确。下钻规则的建设也可以通过 FlashAI 完成,并通过定时任务周期性补充。
  3. 完善[知识库]:把业务逻辑、基本依赖、历史故障 case、处理 SOP 录入知识库,AI 会基于这些背景做更贴合实际的分析。
  4. 数据规范化:尽量规范化空间命名、卡片路径、标签等,方便 AI 准确定位和聚合数据。
  5. 采用分步对话:复杂分析「分步提问」效果优于「一次性下大单」,先要概览,再追问细节。

快速上手

想立刻体验 FlashAI?按以下三步开始:

  1. 接入基座大模型:填写大模型的 api 地址、token 等信息完成配置;
  2. 打开 FlashAI 对话窗:进入灭火图、仪表盘或告警事件页,点击右下角的 FlashAI 按钮;
  3. 试一试这些指令
    • 请巡检这张灭火图当前的状态,列出异常卡片并分析根因
    • 当前有哪些未恢复的 Critical 告警?请按业务组聚合
    • 请分析 Flashcat_metrics 数据源,帮我规划如何建设一张 MySQL + Redis + 微服务的灭火图
延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云