灭火图系统落地步骤

从空间与分层划定、核心观测对象梳理，到卡片规则（模板优先）、下钻与告警、飘红治理与智能化巡检。

目标：选定试点空间与系统边界，完成灭火图 卡片规则 为主线的建设，使首页能反映全局健康态，并具备下钻、告警与后续 AI 诊断 所需的数据基础。

灭火图与北极星常见为 一对多：一条北极星业务线往往对应多个灭火图「系统」（如交易、中台、订单引擎等），需在组织上明确稳定性负责人与研发 / SRE 参与。

步骤一：确定展示范围与首页结构

产出：试点空间、分层与首页卡片清单、对口角色。

观测对象：核心 功能（接口） 与 模块（服务实例集合），按需扩展到中间件、基础设施等；建议先「少而精」，避免全量录入导致噪声。
数据来源：Prometheus 类、日志分析（如网关/报表）、Kubernetes、APM、Zabbix 等已接入数据源；可通过 API 与既有 CMDB / 资产系统联动，保持卡片与线上一致。

智能化前置：若计划使用 模板中心一键建卡，需保证数据源侧标签、命名与模板说明一致（模板 note 中常含标签语义、采集前置条件等重要提示，用模板前务必阅读）。

产出：核心功能/模块/组件清单、数据源与关键标签约定。

优先使用模板中心：按组件类型（如 MySQL、Redis、Kubernetes、Flashcat 微服务等）选择 匹配度 较高的模板，一键或半自动 upsert 为卡片规则，减少手写查询与标签筛选错误。
手写/调优规则：补充模板未覆盖的对象；在规则中配置分层名、首页卡片、分组、详情卡片命名及 健康指标、多阈值/异常条件、执行周期等。
日志类建卡：基于多维日志/网关报表等数据源时，走平台提供的 dimensions 类建卡流程，与纯 Prometheus 规则区分对待。

规则运行后会周期性生成 / 更新 详情卡片，形成可飘红的最小单元。

产出：卡片规则覆盖核心路径；首页与详情页出现预期卡片。

下钻规则：为关键详情卡片配置跳转到 大盘、日志、Trace、事件墙 等；模板生成的微服务 / K8s 类卡片常已带 预置下钻，可按实际再增补。
告警规则：对需要推送的关键卡片配置灭火图 告警规则 与通知策略，使「飘红」与 可行动通知 衔接（通知渠道依赖全局告警与媒介配置）。

产出：从卡片可一键进入常用分析视图；重要异常可触达值班。