Flashcat 是什么
Flashcat 是以开源夜莺(Nightingale)为内核打造的一体化可观测性平台,覆盖指标(Metrics)、日志(Logging)、链路(Tracing)三大观测数据,并内置稳定性保障的最佳实践,帮助企业实现从数据采集到故障定位的全流程闭环。同时,Flashcat 深度融合 AI 能力,支持 AI Agent 以自然语言直接操控平台,实现智能分析、自动巡检、全流程自动化运维,让可观测性数据真正 AI-Ready。

Flashcat 将可观测性领域的问题归纳为四个层面,并逐层解决:
| 层面 | 解决的问题 | 核心能力 |
|---|---|---|
| 数据 | 观测数据从哪来? | 数据采集 + 数据集成,统一管理各类观测数据 |
| 平台 | 观测数据怎么用? | 查询、告警、仪表盘等开箱即用的平台能力 |
| 场景 | 观测能力落在哪? | 北极星、灭火图、事件墙等稳定性保障最佳实践 |
| 智能 | 如何更高效地用? | AI Agent 操控、智能分析、自动巡检等 AI 驱动的智能化能力 |
数据层:统一纳管观测数据
企业的观测数据往往分散在各种系统中。Flashcat 提供两种方式将数据统一纳管,用户可根据实际情况灵活选择或组合使用。
方式一:数据采集
使用开源 All-in-One 采集器 Categraf,集成上百种采集插件,覆盖主机、容器、中间件、应用程序等常见对象,开箱即用。一个 Categraf 同时具备 Prometheus Exporter 和日志采集器的能力,采集配置支持在 Flashcat 中心端统一管理和下发。


方式二:数据集成
对于企业已有的观测系统,无需重复建设。Flashcat 提供"插线板"式的数据集成方案,即插即用地对接各类主流数据源:
- 时序数据源:Prometheus、VictoriaMetrics、阿里云监控、腾讯云监控、华为云监控、AWS CloudWatch 等
- 日志数据源:Elasticsearch、Apache Doris、Loki、阿里云 SLS、腾讯云 CLS、华为云 LTS 等
- 链路数据源:Flashcat APM(基于 OpenTelemetry)、Skywalking、阿里云 ARMS 等
- 事件数据源:Flashduty、Kubernetes Events、Jenkins、Jira 等
集成后的数据源可无差别地用于数据查询、告警配置、仪表盘可视化等所有平台功能。

平台层:开箱即用的观测能力
Flashcat 面向研发和运维团队,提供统一的可观测性平台,将核心功能做全做好,并通过 API 支持灵活扩展。
数据查询
统一查询指标、日志和链路数据,支持多种数据源的原生查询语法。日志检索提供下钻跳转、字段统计、日志下载等能力。

仪表盘
对标 Grafana 的仪表盘能力,支持丰富的图表类型和灵活的布局配置,可引用任意已集成的数据源。

告警管理
支持基于指标、日志、事件等多种数据类型配置告警规则,提供智能告警、静默屏蔽、通知模板等能力。告警事件可进一步对接 Flashduty 实现值班排班、告警聚合降噪和升级。
监控工具
内置服务拨测和网络探测(Pingmesh)等主动监控工具,帮助发现外部服务可用性和内部网络质量问题。


通用管理
完善的用户管理、团队管理、角色权限管理、数据授权等企业级管理能力,满足中大型企业的安全和合规要求。

系统架构
- 高可用与可伸缩:指标存储基于 VictoriaMetrics,日志和链路存储基于 Apache Doris,结合 Flashcat 自研组件,整体架构可弹性伸缩、稳定可靠。
- 中心-边缘模式:支持在边缘节点就近处理数据,减少跨网络传输的带宽消耗和延迟,同时保持中心端的统一管理和查看。

开放 API
Flashcat 的所有功能均基于 API 构建,提供完整的开发者接口,支持与企业内部系统集成或自定义扩展。

场景层:稳定性保障的最佳实践
观测平台的最大价值在于保障业务稳定性。Flashcat 将大型互联网企业的稳定性保障经验产品化,围绕故障发现、定位、恢复的全流程,提供了一系列专用子系统。

北极星:量化业务健康状态
北极星用于定义和监控最核心的业务指标(如实时在线用户数、订单量、支付量等),实时反映业务的整体健康状态。
- 智能检测:支持智能预测、同环比、阈值、数据中断等多种检测方式组合使用,准确发现业务异常
- 多源指标:指标数据可来自时序数据源、日志数据源,甚至可从数据库表(如订单表)计算生成
- 一键大屏:一键生成值守大屏,适用于活动保障和日常巡检场景
- SLO 管理:内置稳定性 SLO 管理和故障事件管理能力



灭火图:全局健康视图与故障定位
灭火图是 Flashcat 最具特色的功能之一。它将 IT 系统拆解为层级化的"观测对象"(如功能接口、微服务、中间件、基础设施),并实时监测每个对象的健康状态:
- 全局视图:健康对象显示绿色,异常对象"飘红着火",在首页即可一览系统全局健康状态
- 下钻分析:从异常对象出发,逐层下钻查看关联的指标、日志、链路、事件等数据,形成分析闭环
- 动态更新:基于规则和模板自动生成和更新,随系统迭代保持同步



事件墙:关联事件,追溯根因
事件墙收集线上变更、告警、运营事件等关键信息,支持将指标异常与相关事件进行对照分析,快速确定故障的直接原因(如某次代码发布或配置变更导致的问题)。
告警值班:流程化的事件响应
告警值班由 Flashduty 提供,专注于告警后的事件响应流程,包括告警聚合降噪、抑制屏蔽、值班排班、告警升级、信息统计等能力,将稳定性保障工作按流程高效驱动。
智能层:AI 驱动的智能化运维
Flashcat 深度融合 AI 能力,内置 AI Agent,让可观测性从 “人找数据” 进化到 “AI 驱动运维”。
FlashAI:内置 AI Agent
FlashAI 是 Flashcat 内置的 AI Agent,结合大模型能力,从根本上改变了可观测性平台的建设和使用方式:
- 故障智能分析:基于灭火图的上下文信息,自动分析指标、日志、链路等数据,输出故障原因和处理建议
- 智能巡检:自动生成巡检报告,识别潜在风险
- 知识问答:作为可观测性领域的专家助手,解答数据采集、告警配置等日常问题
基于 FlashAI 可以用自然语言直接操控平台,实现全流程自动化:
- 数据检索:通过自然语言查询日志、指标、链路数据,AI 自动构造查询条件并返回结果,无需手动编写查询语句
- 灭火图管理:AI Agent 可自动创建和管理灭火图卡片规则、下钻规则、告警规则,建设起被观测系统的完整知识图谱
- 异常分析与巡检报告:AI 结合灭火图上下文,自动执行异常分析,生成结构化的巡检报告,并通过邮件自动分发
- 事件墙管理:AI Agent 可创建事件墙视图、查询事件数据,自动关联变更与故障
- 告警管理:通过自然语言配置北极星告警规则,AI 自动完成业务线、通知规则和告警策略的关联配置
这意味着运维团队可以在 IDE 中通过对话方式完成平台建设和管理,并通过智能定时任务自动优化和完善观测数据。
更多介绍 => FlashAI:从观测系统到 AI SRE 的 Agent 化演进
总结
Flashcat 是从数据到平台到场景再到智能的一体化可观测性产品:
- 数据层:解决观测数据的采集与集成,兼容主流开源和云平台生态
- 平台层:提供企业级的查询、告警、可视化和管理能力
- 场景层:将稳定性保障最佳实践产品化,覆盖从故障发现到定位恢复的全流程
- 智能层:内置 AI Agent(FlashAI) 进行故障分析与智能巡检,支持通过自然语言操控平台,实现数据检索、灭火图管理、异常分析、告警配置等全流程自动化运维