最佳实践:OnCall 文化值得落地,晚上被告警吵醒的概率确实大大降低了
作为运维人员,晚上被告警吵醒绝对是最痛苦的经历之一。听说行业里有专门做 OnCall 的产品,比如 PagerDuty、Flashduty 等,莫非这些 OnCall 产品可以让运维人员晚上避免起床?本文从几个方面来介绍一下如何才能睡个好觉。
汇总 Flashcat 博客中归属于 Flashduty 分类的文章,方便按内容类型连续阅读产品实践、客户案例和可观测性方法。
作为运维人员,晚上被告警吵醒绝对是最痛苦的经历之一。听说行业里有专门做 OnCall 的产品,比如 PagerDuty、Flashduty 等,莫非这些 OnCall 产品可以让运维人员晚上避免起床?本文从几个方面来介绍一下如何才能睡个好觉。
从产品、服务与价格三个维度探讨IT管理人员在为开发运维团队寻找高效协作的故障管理解决方案时应该提出的问题。
支持对告警标签进行增强;IM集成卡片内容丰富;故障列表支持自定义展示;协作空间支持排序和收藏
在现代的 IT 技术环境中,新的监控系统通常都支持非常丰富的通知媒介,比如电话、短信、钉钉、飞书、Slack 等,非常灵活。但是一些老旧的系统,不提供指标暴露方式,无法和监控系统良好对接,这些老古董通常只内置提供邮件告警这一种方式。这种情况应该如何处理呢?
支持更高级的值班管理功能,支付服务日历、自定义操作和邮件集成
Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者
Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者
支持更高级的告警事件路由,支持在Slack内处理告警
通过自定义字段丰富故障信息,新增开发者秘钥管理和文档
支持动态切换深色模式与主题,为您带来更舒适的使用体验
Uptime Kuma支持Flashduty
全面增强告警降噪与协同能力
监控系统用于监控其他的系统、基础设施,绝对是 P0 级的服务,那监控系统的自监控应该怎么做才能避免循环依赖呢?
在指标监控体系里,监控文件变化是一个比较棘手的问题,使用 catpaw 配合 Flashduty 则可以很方便的解决这个问题
告警管理+Webhook+阿里云SLS+腾讯蓝鲸集成
集成Zabbix告警到Flashduty,获得告警降噪、智能排班、IM协同等能力
很多监控告警的系统都声称自己的降噪比是多少多少,各位终端用户可能不好分辨到底效果如何,本文给大家推荐一个简单粗暴高效的方式。
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题,如何通过一些手段达到告警降噪的效果呢?
IM协同+监控集成+交互优化