星巴克中国:每天 3000+ 原始告警,如何收敛到 500 条有效故障
星巴克中国在门店、移动应用、会员体系和供应链等复杂业务体系下,面临告警风暴、配置维护困难和漏报漏处理等问题。通过引入 Flashduty,团队实现了多源告警接入、智能降噪、精准路由和闭环管理,将每天 3000 多条原始告警收敛到约 500 条有效故障。
汇总 Flashcat 博客中与 OnCall 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
星巴克中国在门店、移动应用、会员体系和供应链等复杂业务体系下,面临告警风暴、配置维护困难和漏报漏处理等问题。通过引入 Flashduty,团队实现了多源告警接入、智能降噪、精准路由和闭环管理,将每天 3000 多条原始告警收敛到约 500 条有效故障。
吉利集团在电动化、智能化与全球化加速推进过程中,面临多云架构、告警来源分散、跨区域值班协同复杂等挑战。通过引入 Flashduty,吉利集团构建了统一的告警与事件响应中枢,实现从分散告警处理到标准化事件治理体系的升级。
告警风暴是运维团队常见的痛点,严重影响工作效率和员工幸福感。通过治理告警规则、建立 On-call 机制、做好复盘、引入告警收敛降噪机制以及认领升级机制,可以有效减少告警打扰,提高团队的工作效率和满意度。行动起来吧,告别告警风暴,提升团队幸福感!
Datadog 是监控、可观测性领域的头部玩家,市值几百亿美金,拥有众多 SaaS 客户,对服务稳定性和可用性要求极高。Datadog 的 OnCall 实践也非常成熟,本文将介绍 Datadog 的 OnCall 实践,帮助大家更好地理解 OnCall 的重要性和实施方法。
告警 OnCall 实践的核心在于快速响应、高效协作和持续改进。通过避免上述错误实践,团队可以显著提升故障处理效率,降低系统风险,同时减轻 OnCall 人员的压力。
告警 OnCall 机制是企业运维团队保障业务连续性的重要手段,本文介绍了为什么要有值班制度、设计高效值班制度的核心要素、在 Flashduty 中的值班实践以及案例分享。
告警事件 OnCall 平台如何选型?本文罗列了两个开源项目和一个商业项目,介绍了其优缺点,希望对大家有所帮助。OnCall 平台是 OnCall 文化落地的重要依托,选型时需慎重考虑。
告警降噪是指在运维监控中,通过聚合、抑制、收敛等策略减少无用或重复告警的干扰,避免告警泛滥,确保运维人员只接收到关键信息。降噪可以减少对值班人员的打扰,同时确保他们能及时处理真正重要的告警事件。
PagerDuty 是非常知名的告警事件聚合降噪的 OnCall 平台,市值几十亿美金的公司,起步甚早,深耕 global 市场,对于国内普通用户,如果想找一个 local 的替代方案,本文会介绍一个颇有竞争力的产品 Flashduty
期货行业的运维保障,具有一定的特殊性和独特的挑战,如何把相应的管理机制、技术要求、运营机制,落地到统一的监控事件响应平台,对于提升告警响应速度、降低运行维护压力,是我们提高系统的可靠性的关键抓手。
告警风暴是作为技术人员尤其是运维人员的巨大痛点,有时甚至一周七天每天被吵醒,而老板安排的活白天还要照干不误,导致精神疲惫,有没有什么办法可以破解这个难题呢?
有些团队声称自己是 DevOps 团队,全员 OnCall,结果最后就是最好欺负的那些人干活最多,这不,我这个前同事就是因为这个原因,要离职了
我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。