星巴克中国:每天 3000+ 原始告警,如何收敛到 500 条有效故障
星巴克中国在门店、移动应用、会员体系和供应链等复杂业务体系下,面临告警风暴、配置维护困难和漏报漏处理等问题。通过引入 Flashduty,团队实现了多源告警接入、智能降噪、精准路由和闭环管理,将每天 3000 多条原始告警收敛到约 500 条有效故障。
汇总 Flashcat 博客中与 Flashduty 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
星巴克中国在门店、移动应用、会员体系和供应链等复杂业务体系下,面临告警风暴、配置维护困难和漏报漏处理等问题。通过引入 Flashduty,团队实现了多源告警接入、智能降噪、精准路由和闭环管理,将每天 3000 多条原始告警收敛到约 500 条有效故障。
吉利集团在电动化、智能化与全球化加速推进过程中,面临多云架构、告警来源分散、跨区域值班协同复杂等挑战。通过引入 Flashduty,吉利集团构建了统一的告警与事件响应中枢,实现从分散告警处理到标准化事件治理体系的升级。
FlashDuty 通过 Claude Code skill 构建 AI 文档审查系统,将源码与产品文档关联起来,自动发现文档漂移、补齐缺失说明并生成 PR。本文介绍这套系统的设计思路、Diff/Audit 两种模式和落地经验。
AI 短期不会直接替代运维岗位,但会优先替代依赖个人经验、上下文记忆和人工协同的工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态,分析 AI 时代运维体系的演进方向。
本文介绍如何排查 Flashduty monitor 监控告警时,发现数据不符合预期的场景,帮助用户定位和解决问题。
本文介绍如何使用 Flashduty 实现告警时的关联查询功能,方便 On-call 人员快速获取相关数据,提高响应效率。
Flashduty 作为一站式告警 On-call 平台,会把各个监控系统的告警事件聚拢到一起,把相似的告警收敛为故障(incident),所以,在 Flashduty 中要提供故障本身的分析总结能力,这就理所当然。
告警风暴是运维团队常见的痛点,严重影响工作效率和员工幸福感。通过治理告警规则、建立 On-call 机制、做好复盘、引入告警收敛降噪机制以及认领升级机制,可以有效减少告警打扰,提高团队的工作效率和满意度。行动起来吧,告别告警风暴,提升团队幸福感!
日志监控时,想要在告警消息中带上日志原文,应该如何操作?Flashduty 提供了一个关联查询的功能,可以在告警事件中包含日志原文。
Flashduty 不但是一个一站式告警 OnCall 平台,也提供了告警引擎能力,可以对接各种监控系统,本文介绍 Flashduty 告警规则中多个 PromQL 查询的功能说明
夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,可以非常方便的配置各种通知媒介,比如钉钉、短信、电话等。而且还有非常通用的 HTTP、脚本 通知方式,那么是不是就不需要 Flashduty 了呢?
运维人员最紧张的时刻应该就是线上出故障的时刻,一个是紧张没有及时收到通知错过了,一个是处理故障过程中出现纰漏。Flashduty 作为一款专业的告警 OnCall 产品,让告警响应更轻松、从容
告警 OnCall 实践的核心在于快速响应、高效协作和持续改进。通过避免上述错误实践,团队可以显著提升故障处理效率,降低系统风险,同时减轻 OnCall 人员的压力。
对于大部分公司,通常都不止一套监控、可观测性相关的系统,云上的、云下的,开源的、商业的,指标的、日志的、链路的,各个系统体验不同,权限难管,如何统一化并为各个团队赋能,是很多技术负责人极为头疼的问题。
对于大部分公司,通常都不止一套监控、可观测性相关的系统,各个系统体验不同,有些技术人员甚至都不知道公司有这么多套更遑论使用了,如何统一化?可视化方面一般会选择 Grafana,告警方面,推荐 Flashduty
Flashduty 告警引擎功能提供了失联告警能力,即在引擎失联之后可以自动生成告警事件,通知系统维护人员,大大提升了 Flashduty 告警引擎的可用性
告警 OnCall 机制是企业运维团队保障业务连续性的重要手段,本文介绍了为什么要有值班制度、设计高效值班制度的核心要素、在 Flashduty 中的值班实践以及案例分享。
Flashduty 作为一款 OnCall 平台,核心解决的是告警事件产生之后的环节,包括收敛降噪、排班、认领升级、分发、协同等。实际 Flashduty 也提供了告警引擎功能,可以在 Flashduty 上管理告警规则,Flashduty 根据规则去查询各类数据源做异常判定,进而生成告警事件,类似 vmalert 的功能。
监控系统有很多,我们要把监控系统的告警事件聚合到一站式告警处理 OnCall 平台,做统一的事件处理,包括告警收敛、告警分发、告警处理、告警分析等。
PagerDuty 是非常知名的告警事件聚合降噪的 OnCall 平台,市值几十亿美金的公司,起步甚早,深耕 global 市场,对于国内普通用户,如果想找一个 local 的替代方案,本文会介绍一个颇有竞争力的产品 Flashduty