On-call

告警太多，不能只靠调阈值：从告警治理到 On-call 响应闭环

快猫星云 · 2026-07-03

面向 SRE、平台工程和运维团队，说明为什么告警治理不能停留在调阈值，而要连接标签、责任人、降噪、路由、排班、升级、复盘和管理指标。

MTTR 降不下来，真的是工具问题吗？

快猫星云 · 2026-06-24

MTTR 降不下来，不能只归因于工具。更有效的做法是把故障响应拆成发现、分派、定位、修复、验证和复盘，逐段找到拖慢恢复的真正原因。

门店故障发现与响应复盘模板：一次故障，应该追问什么？

快猫星云 · 2026-06-22

面向连锁门店故障的复盘模板，围绕发现、影响、响应、根因和改进项追问，帮助团队把一次故障转成更早发现、更快响应和可验收改进。

每天几千条告警，如何收敛成有效故障

快猫星云 · 2026-06-22

连锁门店环境下，告警数量很容易失控。本文讨论如何通过告警分级、降噪、关联、路由和复盘，把告警从消息轰炸收敛成真正可响应的故障事件。

从 MTTA 到 MTTR：事故响应链路里最容易被忽略的 5 个断点

快猫星云 · 2026-06-15

管理 MTTA 和 MTTR 不能只看平均值，要把事故响应拆成发现、判断、认领、协作和复盘五个断点，并让每一段可记录、可分派、可升级、可改进。

On-call 不是轮流背锅：如何设计一个不把人耗干的值班体系

快猫星云 · 2026-06-15

健康的 On-call 不是排满值班表，而是同时治理告警质量、值班负载、升级路径、休息补偿和复盘改进，让正确的人处理正确的问题。

告警疲劳不是通知问题，而是故障对象建模问题

快猫星云 · 2026-06-11

告警疲劳的根因往往不是通知渠道太吵，而是 Event、Alert、Incident 没有分层建模。本文用故障对象模型拆解事件聚合、告警收敛、标签治理、静默、抑制、抖动检测和路由分派。

如何用作战室提升重大故障协同效率

快猫星云 · 2026-06-10

重大故障作战室不是再拉一个群，而是围绕故障建立临时协同现场，明确角色分工、同步处理动作、沉淀时间线，并把状态页、工单系统和复盘流程串起来。

如何用状态页做好故障期间的内外部沟通

快猫星云 · 2026-06-09

本文介绍如何用 Flashduty 状态页在故障和维护期间统一内外部沟通，通过公开状态页、内部状态页、组件、事件生命周期和订阅机制降低沟通噪音。

如何用 Flashduty 分析看板发现告警噪音来源

快猫星云 · 2026-06-09

本文介绍如何用 Flashduty 分析看板从团队、协作空间、严重程度、时间、中断次数和告警 TOP 等维度定位告警噪音来源，并把治理动作做成可验证的持续改进。

如何设计告警标签，后续降噪和分派才不会乱

快猫技术 · 2026-06-08

告警标签设计要先稳定 service、team、env、severity、resource，再扩展 check、cluster、source。标签标准化以后，Flashduty 的路由、分派、聚合、静默、抑制和噪音分析才可维护。

如何配置第一张值班表和升级策略

快猫技术 · 2026-06-08

在 Flashduty 中配置第一张值班表的最短路径：先选试点协作空间，创建主备值班表，再用 Critical 分派策略验证通知、认领、升级和关闭链路。

10 分钟接入 Zabbix 告警到 Flashduty

Flashduty · 2026-06-04

面向 Zabbix 3.x 到 7.x 的 Flashduty 告警接入指南：配置 media type、user、trigger action，验证 Problem、Recovery、Update 事件，并完成故障生成、分派通知和常见问题排查。

10 分钟接入 Prometheus 告警到 Flashduty

Flashduty · 2026-06-04

本文给出 Prometheus Alertmanager 通过 Webhook 接入 Flashduty 的 10 分钟步骤，覆盖集成创建、receiver 配置、路由验证、测试告警、故障生成和通知分派检查。

故障复盘报告怎么写？用 AI 自动生成初稿的正确方式

Flashcat · 2026-06-03

系统说明如何写故障复盘报告，以及如何用 AI 基于故障详情、时间线、作战室讨论和告警上下文生成初稿，同时保留人工确认根因、影响和行动项的责任。

Opsgenie/PagerDuty 替代方案怎么选

Flashduty · 2026-06-03

选择 Opsgenie 或 PagerDuty 替代方案，不是换一个通知工具，而是重建告警接入、降噪、值班分派、通知触达、协同复盘和治理指标这条故障响应链路。

自研告警平台还要不要继续维护？成本、能力和风险对比

Flashduty · 2026-06-02

自研告警平台是否还值得维护，不能只看研发和服务器成本。本文从业务语义、On-call 闭环、通知分派、降噪、权限审计、数据分析、迁移路径和总拥有成本评估取舍。

MTTA 和 MTTR 怎么算？如何用指标管理故障响应效率