分类：Flashcat方法

汇总 Flashcat 博客中归属于 Flashcat方法分类的文章，方便按内容类型连续阅读产品实践、客户案例和可观测性方法。

按主题浏览告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

Flashcat方法分类文章

用 catpaw 监控你的监控系统：给 Prometheus 和 Nightingale 加一层外部哨兵

快猫星云 · 2026-04-13

监控系统本身也会失效。本文介绍如何用 catpaw 给 Prometheus、Nightingale、Alertmanager 增加独立外部哨兵，从 systemd、进程、HTTP、磁盘、日志、时间同步和 MCP 等角度降低监控失声与值班盲飞风险。

AI 会替代运维老司机吗？五类产品形态重塑 SRE 与 AIOps

快猫星云 · 2026-04-13

AI 短期不会直接替代运维岗位，而会优先替代依赖个人经验、上下文记忆和人工协同的运维工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态，分析 AI Agent、AIOps 与 SRE 产品栈如何重塑运维体系。

AI 时代的可观测性：从排障工具到运行时控制平面

快猫星云 · 2026-04-12

AI Agent 和 LLM 应用进入生产后，可观测性会从排障工具升级为连接可靠性、治理、审计、成本控制和自动化动作的运行时控制平面。本文基于 2025-12-30 至 2026-03-30 的行业信号，梳理 AI 可观测性的演进方向、厂商转型重点和企业落地路径。

如何采用 SRE 实践（当你不是 Google 时）

JEMIAH SIUS · 2025-12-26

非 Google 公司落地 SRE 的实践指南：解释 SRE 与 DevOps 的关系、团队职责、成熟度模型、自动化能力、SLI/SLO/SLA 设计，以及如何从监控和事件响应开始推进可靠性工程。

连锁门店如何做好可观测性

快猫技术 · 2025-02-17

连锁门店可观测性既要看服务端，也要覆盖全国门店端设备、网络和程序。本文总结 Flashcat 用灭火图、北极星、Categraf 和 Flashduty 建设连锁门店稳定性保障体系的方法。

Prometheus 告警恢复时，怎么获取恢复时的值？

巴辉特 · 2024-08-29

Prometheus 告警恢复事件中的 `$value` 往往仍是最后一次告警触发值，而不是恢复时的最新值。原因在于 Prometheus 规则表达式带阈值时正常状态不返回数据，Alertmanager 生成 Resolved 事件时也不会反查 Prometheus。本文解释原理和两类解决方式。

知乎：SLO 运营实践

邱天罡-知乎 · 2024-08-20

知乎如何把海量可观测数据转化为 SLO 运营能力？本文梳理知乎 Prometheus、Graphite、VictoriaMetrics 指标体系，以及基于 Flashcat 灭火图的 SLO 创建、告警、下钻和报表实践。

解决方案：兼顾合规、便捷、可扩展，全球化的监控平台建设方案

快猫技术 · 2024-08-19

面向中国企业出海和多 Region 部署场景，介绍一种兼顾合规、网络时延、集中管理和本地自治的全球化监控平台方案：通过 Flashcat centre + edge 模式统一配置管理，同时让边缘区域在网络中断时保持本地采集、存储和告警能力。

提升故障应急响应速度，Flashcat平台的1-5-10实践

快猫技术 · 2024-05-27

围绕阿里巴巴 1-5-10 故障目标，说明如何用北极星指标、灭火图、事件墙和多维分析缩短发现、处置与恢复时间，帮助团队建立更快的应急响应机制。

最佳实践：可观测建设实践之 - 日志分析的权衡取舍

快猫技术 · 2024-03-28

本文结合稳定性保障实践，说明日志分析如何在成本、效果和落地风险之间取舍，并介绍用网关日志生成业务指标、与指标和链路追踪联动、再通过 Flashcat 串联多数据源的日志分析路径。

理想的监控系统到底是什么样的？

秦晓辉@快猫星云 · 2023-12-14

理想的监控系统不是单个工具，而是一条从采集、传输、存储、可视化、告警到事件分发的链路。本文总结采集器、vmagent/Vector、VictoriaMetrics、Grafana/Nightingale、告警引擎和 OnCall 平台的职责边界。

可观测性与传统监控的区别和联系

快猫技术 · 2023-12-12

什么是可观测性？相比传统监控，可观测性是“新瓶装旧酒”吗？他们有哪些区别和联系，从传统监控到可观测性，Gap 到底有多大？

最佳实践：稳定性保障8个锦囊，建议收藏！

快猫技术 · 2023-10-09

稳定性保障的关键，是把业务可用性目标、故障发现定位止损、冗余切换、降级熔断、限流、弹性伸缩、灰度发布和云服务治理串成可执行闭环。本文总结 8 个稳定性保障实践，适合 SRE、运维和研发团队用于故障响应与可靠性建设。

可观测性是什么？入门指南

王梓禾@快猫星云 · 2023-06-28

可观测性是根据系统输出数据理解系统内部状态的能力，常见数据包括日志、指标和链路追踪。本文介绍可观测性的定义、与监控的区别、主要收益、三大支柱、实践方法和落地挑战。

面向故障处理的可观测性体系建设

秦晓辉@快猫星云 · 2023-06-15

可观测性体系的目标不是堆 metrics、logs、traces，而是帮助技术团队快速发现故障、定位直接原因并完成止损。本文从故障生命周期、结果类指标、数据特征、观点和洞察几个层次，说明面向故障处理的可观测性应该如何建设。

Flashcat 系列白皮书，免费收藏

Flashcat产品技术 · 2023-06-06

Flashcat 系列白皮书围绕可观测性成熟度、稳定性体系建设、Flashcat 产品能力和 OnCall 体系展开，帮助团队理解从传统监控到可观测平台的建设路径。

最佳实践：可观测性三支柱？远不止此！

Martin Mao · 2023-05-12

可观测性不应只围绕日志、指标和分布式链路追踪三支柱建设。本文从定故障、定边界、定原因三个阶段出发，强调以告警、上下文、拓扑和止损结果衡量可观测性价值。

从监控系统到可观测平台的演进之路

快猫技术 · 2023-04-12

从 Open-Falcon 的监控系统实践出发，梳理微服务和云原生架构为什么推动监控系统演进到可观测平台，并说明云原生时代对数据模型、采集方式、Metric/Log/Trace 融合、告警和开源社区的要求。

稳定性体系建设白皮书

秦晓辉@快猫星云 · 2023-04-07

稳定性体系建设要围绕故障生命周期展开：事前预防、事中发现与止损、事后复盘改进，并通过方法论和工具把这些动作产品化。

如何做好今天的运维

华明 · 2023-03-23

如何做好今天的运维：优秀运维和架构师的核心竞争力不是会多少工具，而是对业务价值、系统流程、核心模块、部署架构、基础设施和风险预案的理解深度。