灭火图系统最佳实践

智能化优先：AI 根因分析、时间轴对齐事件、模板化建卡；并与北极星、发布管控、事件墙形成闭环。

灭火图的最佳实践可概括为：用模板与规则把「对象与健康态」建准，用 下钻与事件 把「下一步该看什么」固化，用 AI 与时间轴 把「为什么异常、何时开始异常」说清楚。下列条目可按成熟度分阶段采纳。

智能化实践（建议优先重视）

1. 异常时使用 AI 智能诊断，再交叉验证

对 飘红的详情卡片，在对应故障时刻触发 AI 根因分析（智能诊断），以平台返回的分析结论为主干，再用人眼核对指标、日志、链路是否支持该结论。
避免仅凭卡片名、指标名或阈值字面含义做「猜测式」根因——应把 AI 输出与客观数据一起看。
当同时存在多张异常卡片时，可选取跨分层代表性的卡片做分析，再综合推断 空间级 影响链路。

2. 用时间轴对齐「何时开始红」与「当时发生了什么」

打开 时间轴，将异常高峰与 变更、发布、扩容、限流 等事件对齐；在灭火图卡片上若已挂载 事件墙/变更类入口，可一键跳转核对因果。
对周期性抖动与偶发尖刺区分对待：前者可能需要调阈值或治理容量，后者更适合用一次完整的时间轴 + AI + 日志切片复盘。

3. 模板中心与匹配度：让建卡「更聪明、更省力」

新建或扩容环境时，先到 模板中心 按组件查看 匹配度，优先采用 高分模板 生成卡片规则；再按本环境标签（如 cluster、namespace）微调。
认真阅读模板的 说明（note），特别是标签含义、是否适合用某字段做实例名等——可减少后续飘红错误与下钻失效。

4. 巡检与报告（进阶）

选取时间窗口（如近 24 小时）查看时间轴上的 异常分布，抽取最严重时段与卡片列表；对关键卡片可补充 AI 分析 结论。
报告内容建议突出：异常在时间上的分布、可疑隐患、治理建议（含「异常条件是否过严/过松」的优化提示）。
若组织内有邮件/工单规范，可将 HTML 报告纳入固定节奏，推动 隐患前置治理。

与北极星、发布与组织架构配合

明确承载某北极星业务线的 IT 系统集合（交易、中台、用户、引擎等）；在灭火图首页为每类系统建立 首页卡片，避免重复造轮子（公共系统可共用一张首页卡片）。
北极星报警后：处理人员先查关联灭火图，或在灭火图首页看各「系统」红绿灯，收敛责任域与团队。
变更联动：与发布/变更系统约定——灭火图或北极星在故障窗口出现大面积飘红时，暂停同域变更或强制复核，避免扩大 blast radius。
关联配置（北极星 ↔ 灭火图、卡片 ↔ 事件墙/大盘）可 迭代沉淀，不必一次做全；在每次 P1/P2 复盘后补齐一条路径即可持续增值。

模块、组件与基础设施递进建设

在核心 功能/接口 路径跑通后，逐步补齐：

模块：实例存活、资源水位——功能异常后优先看模块是否单点或资源打满。
中间件组件：按集群/实例单元拆分；若 Flashcat 中已有该组件的 仪表盘，可在建卡时选为下钻目标，便于从飘红直接跳入专题分析视图；优先使用 组件模板 降低配置成本。
基础设施：网络、DNS、CDN、容器平台等，逻辑与组件类类似，通常按 region/可用区等 单元标签 建卡；同样可关联既有大盘或专项采集指标。

每层都建议配置 下钻到大屏/专表，保持「见红即有所指」。

API 与周边系统集成

灭火图规则、卡片与关联信息 支持 OpenAPI，可与 CMDB、发布平台、工单系统对接，实现 批量建卡、环境同步、门禁联动。大规模治理时优先脚本化与模板化，避免仅靠人工点选。

通过以上实践，灭火图会从「看得见全局」演进为 看得懂异常（AI）、对得上时间（时间轴）、走得到下一步（下钻与事件） 的定位中枢，并与北极星共同覆盖 业务发现 + 技术定位 全链路。

快猫星云联系方式

快猫星云联系方式

快猫星云联系方式

快猫星云Email

申请技术交流产品试用

快猫星云

产品

可私有化部署的全栈智能观测平台

SaaS 化的智能告警响应平台

SaaS 化的真实用户监控平台

开源项目

云原生监控告警系统

All-in-one 数据采集器

用户落地实践与案例集入口

开发者中心

集成开发文档与工具

产品使用指南与 API 参考

获取最新安装包与工具

产品演示与教程

技术分享与行业话题