分类：最佳实践

汇总 Flashcat 博客中归属于最佳实践分类的文章，方便按内容类型连续阅读产品实践、客户案例和可观测性方法。

搜索最佳实践

按主题浏览告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

最佳实践分类文章

SRE 为什么越来越累：问题不在监控太少，而在信号没有变成行动

快猫星云 · 2026-06-08

SRE 的疲惫不在于监控不足，而在于告警、观测数据、响应流程和复盘没有形成从信号到行动的闭环。

10 分钟接入 Zabbix 告警到 Flashduty

Flashduty · 2026-06-04

面向 Zabbix 3.x 到 7.x 的 Flashduty 告警接入指南：配置 media type、user、trigger action，验证 Problem、Recovery、Update 事件，并完成故障生成、分派通知和常见问题排查。

10 分钟接入 Prometheus 告警到 Flashduty

Flashduty · 2026-06-04

本文给出 Prometheus Alertmanager 通过 Webhook 接入 Flashduty 的 10 分钟步骤，覆盖集成创建、receiver 配置、路由验证、测试告警、故障生成和通知分派检查。

如何为一个电商系统建设灭火图：接口、服务、组件、基础设施四层模型

技术调研 · 2026-05-28

以典型电商系统为例，说明如何按功能接口层、微服务层、标准组件层和基础设施层建设灭火图，让故障现场能快速判断影响范围和下一步排障路径。

一张图掌握 IT 系统健康状态 - Flashcat 灭火图

快猫技术 · 2026-05-07

服务出现故障时，有没有一张图能够呈现出全系统各部分的健康状态，让团队快速找准问题范围，让经理、老板心中有数？灭火图就是这样一张图。更进一步，灭火图本质上是 IT 系统的"知识图谱"，是 Flashcat 实现智能化稳定性保障的核心数据基座。

用 Claude Code Skill 治理文档漂移：FlashDuty 的 AI 文档审查实践

快猫星云 · 2026-04-13

FlashDuty 通过 Claude Code skill 构建 AI 文档审查系统，将源码与产品文档关联起来，自动发现文档漂移、补齐缺失说明并生成 PR。本文介绍这套系统的设计思路、Diff/Audit 两种模式和落地经验。

用 catpaw 监控你的监控系统：给 Prometheus 和 Nightingale 加一层外部哨兵

快猫星云 · 2026-04-13

监控系统本身也会失效。本文介绍如何用 catpaw 给 Prometheus、Nightingale、Alertmanager 增加独立外部哨兵，从 systemd、进程、HTTP、磁盘、日志、时间同步和 MCP 等角度降低监控失声与值班盲飞风险。

Zenlayer 公网质量监控平台实践：从 SmokePing 到拨测与 IQSM 评分模型

Zenlayer · 2026-04-13

本文介绍 Zenlayer 面向全球边缘云业务构建公网质量监控平台的实践，涵盖 SmokePing 与 SmokeCAT 的早期探索、分布式拨测、样本筛选、VictoriaMetrics/VictoriaLogs 数据底座以及 IQSM IP 质量评分模型。

最佳实践：老虎如何吃下天 - 可观测性加大模型

Flashcat技术 · 2025-04-24

可观测性接入大模型，关键不是把所有指标、日志、链路和事件直接交给模型，而是先让模型理解系统对象和数据查询通道。本文说明 Flashcat 如何通过灭火图和数据集成支撑 AI 根因定位。

最佳实践：统一观测系统建设中存量系统如何处理

快猫技术 · 2025-02-11

存量观测系统多、数据源分散，是统一观测平台建设的第一道难题。本文对比完全重建、转储转换和 API 对接三类路径，并说明 Flashcat 为什么优先选择数据源集成。

告警降噪解析与实践

快猫星云 · 2024-09-05

告警降噪通过聚合、抑制、静默、收敛和标签增强等策略减少重复通知和无效打扰。本文结合 Flashduty 实践说明告警风暴、告警抑制、预期内告警的处理方式和降噪效果。

最佳实践：OnCall 文化值得落地，晚上被告警吵醒的概率确实大大降低了

被告警折磨的SRE · 2024-07-08

晚上被告警吵醒，不只是通知工具问题，而是 OnCall 文化、排班、告警规则、收敛降噪、分发策略和运营治理的系统问题。本文说明如何用 OnCall 机制降低夜间无效打扰。

提升故障应急响应速度，Flashcat平台的1-5-10实践

快猫技术 · 2024-05-27

围绕阿里巴巴 1-5-10 故障目标，说明如何用北极星指标、灭火图、事件墙和多维分析缩短发现、处置与恢复时间，帮助团队建立更快的应急响应机制。

最佳实践：可观测建设实践之 - 日志分析的权衡取舍

快猫技术 · 2024-03-28

本文结合稳定性保障实践，说明日志分析如何在成本、效果和落地风险之间取舍，并介绍用网关日志生成业务指标、与指标和链路追踪联动、再通过 Flashcat 串联多数据源的日志分析路径。

最佳实践：灭火图 - 故障发现和定位的入口

快猫技术 · 2023-12-27

Flashcat 灭火图是故障发现和定位的入口，通过服务、模块、组件、基础设施等层级化健康视图，聚合时延、流量、错误、饱和度等指标，并串联指标、日志、链路、事件等下钻分析能力。

理想的监控系统到底是什么样的？

秦晓辉@快猫星云 · 2023-12-14

理想的监控系统不是单个工具，而是一条从采集、传输、存储、可视化、告警到事件分发的链路。本文总结采集器、vmagent/Vector、VictoriaMetrics、Grafana/Nightingale、告警引擎和 OnCall 平台的职责边界。

最佳实践：稳定性保障8个锦囊，建议收藏！

快猫技术 · 2023-10-09

稳定性保障的关键，是把业务可用性目标、故障发现定位止损、冗余切换、降级熔断、限流、弹性伸缩、灰度发布和云服务治理串成可执行闭环。本文总结 8 个稳定性保障实践，适合 SRE、运维和研发团队用于故障响应与可靠性建设。

最佳实践：可观测性三支柱？远不止此！

Martin Mao · 2023-05-12

可观测性不应只围绕日志、指标和分布式链路追踪三支柱建设。本文从定故障、定边界、定原因三个阶段出发，强调以告警、上下文、拓扑和止损结果衡量可观测性价值。

最佳实践：告警通知时如何做到最佳降噪效果

被告警折磨的SRE · 2023-04-19

告警通知降噪的关键不是把所有告警细节塞进短信或电话，而是把通知入口收敛、把查看细节交给页面聚合。本文用 300 条告警的场景说明通知策略、分派、升级和值班协同如何配合。

最佳实践：治理告警风暴，告警降噪的一些典型手段

被告警折磨的SRE · 2023-04-18

告警风暴治理不能只靠屏蔽通知，核心是优化告警策略、区分业务告警和资源告警、建立统一 OnCall 中心，并用去重、聚合、抑制、静默和量化指标持续降低告警噪音。