灭火图系统最佳实践
智能化优先:AI 根因分析、时间轴对齐事件、模板化建卡;并与北极星、发布管控、事件墙形成闭环。
灭火图的最佳实践可概括为:用模板与规则把「对象与健康态」建准,用 下钻与事件 把「下一步该看什么」固化,用 AI 与时间轴 把「为什么异常、何时开始异常」说清楚。下列条目可按成熟度分阶段采纳。
智能化实践(建议优先重视)
1. 异常时使用 AI 智能诊断,再交叉验证
- 对 飘红的详情卡片,在对应故障时刻触发 AI 根因分析(智能诊断),以平台返回的分析结论为主干,再用人眼核对指标、日志、链路是否支持该结论。
- 避免仅凭卡片名、指标名或阈值字面含义做「猜测式」根因——应把 AI 输出与客观数据一起看。
- 当同时存在多张异常卡片时,可选取跨分层代表性的卡片做分析,再综合推断 空间级 影响链路。
2. 用时间轴对齐「何时开始红」与「当时发生了什么」
- 打开 时间轴,将异常高峰与 变更、发布、扩容、限流 等事件对齐;在灭火图卡片上若已挂载 事件墙/变更类入口,可一键跳转核对因果。
- 对周期性抖动与偶发尖刺区分对待:前者可能需要调阈值或治理容量,后者更适合用一次完整的时间轴 + AI + 日志切片复盘。
3. 模板中心与匹配度:让建卡「更聪明、更省力」
- 新建或扩容环境时,先到 模板中心 按组件查看 匹配度,优先采用 高分模板 生成卡片规则;再按本环境标签(如 cluster、namespace)微调。
- 认真阅读模板的 说明(note),特别是标签含义、是否适合用某字段做实例名等——可减少后续飘红错误与下钻失效。
4. 巡检与报告(进阶)
- 选取时间窗口(如近 24 小时)查看时间轴上的 异常分布,抽取最严重时段与卡片列表;对关键卡片可补充 AI 分析 结论。
- 报告内容建议突出:异常在时间上的分布、可疑隐患、治理建议(含「异常条件是否过严/过松」的优化提示)。
- 若组织内有邮件/工单规范,可将 HTML 报告纳入固定节奏,推动 隐患前置治理。
与北极星、发布与组织架构配合
- 明确承载某北极星业务线的 IT 系统集合(交易、中台、用户、引擎等);在灭火图首页为每类系统建立 首页卡片,避免重复造轮子(公共系统可共用一张首页卡片)。
- 北极星报警后:处理人员先查关联灭火图,或在灭火图首页看各「系统」红绿灯,收敛责任域与团队。
- 变更联动:与发布/变更系统约定——灭火图或北极星在故障窗口出现大面积飘红时,暂停同域变更或强制复核,避免扩大 blast radius。
- 关联配置(北极星 ↔ 灭火图、卡片 ↔ 事件墙/大盘)可 迭代沉淀,不必一次做全;在每次 P1/P2 复盘后补齐一条路径即可持续增值。
模块、组件与基础设施递进建设
在核心 功能/接口 路径跑通后,逐步补齐:
- 模块:实例存活、资源水位——功能异常后优先看模块是否单点或资源打满。
- 中间件组件:按集群/实例单元拆分;若 Flashcat 中已有该组件的 仪表盘,可在建卡时选为下钻目标,便于从飘红直接跳入专题分析视图;优先使用 组件模板 降低配置成本。
- 基础设施:网络、DNS、CDN、容器平台等,逻辑与组件类类似,通常按 region/可用区等 单元标签 建卡;同样可关联既有大盘或专项采集指标。
每层都建议配置 下钻到大屏/专表,保持「见红即有所指」。
API 与周边系统集成
灭火图规则、卡片与关联信息 支持 OpenAPI,可与 CMDB、发布平台、工单系统对接,实现 批量建卡、环境同步、门禁联动。大规模治理时优先脚本化与模板化,避免仅靠人工点选。
通过以上实践,灭火图会从「看得见全局」演进为 看得懂异常(AI)、对得上时间(时间轴)、走得到下一步(下钻与事件) 的定位中枢,并与北极星共同覆盖 业务发现 + 技术定位 全链路。