FlashDuty:一站式告警处理 OnCall 平台

快猫星云 2024-09-05 00:06:10

如下告警的痛点,你中了几条?

  • 🎯 公司有很多监控系统,云上的、云下的,开源的、自研的、商业的,设备的、组件的、业务的,甚至一些产品还自带零散监控,导致:告警事件散落各处,没法统一处理、分析、协同
  • 🎯 监控系统重点是搞定数据采集、可视化、告警事件产生,事件的后续处理关注较少,比如缺少告警聚合、告警升级等能力,即使有些监控系统把这些能力也做了,但是是自闭环的,无法把能力共享给其他监控系统。有些挫的监控系统,竟然还只支持发邮件,没法纳入 OnCall 体系统一管理
  • 🎯 没法移动办公,查看告警详情需要连 vpn,要是能在各类IM(飞书、钉钉、企微)中直接做告警认领、屏蔽、转派、分类查看,该多好
  • 🎯 事件的处理分析是缺失的,比如发了多少事件,消耗了多少手机、短信费用,平均认领/响应时间MTTA,平均恢复时间MTTR等相关统计分析是缺失的
  • 🎯 缺少灵活的排班机制,落地SRE实践首先得做好排班,非OnCall的人就可以心无旁骛的干一些长线的工作,避免晚上告警电话把全组都吵醒

笔者在运维领域摸爬滚打十几年,先后开源了 Open-Falcon、Nightingale 两个监控项目,对这摊破事门清。我希望能够有一个真正好用的产品彻底解决这些痛点,于是,我创业了,诞生了 FlashDuty 这个产品!

FlashDuty一站式告警处理OnCall平台

FlashDuty 简介

由于监控系统设计各异,而且通常侧重点不在事件的后续处理,那好,我们就做一个产品,去对接各类监控系统,把事件收拢到一个平台,在这个统一的平台里处理,比如降噪、标签增强、排班、认领升级、统计分析等等。

FlashDuty已接入数十种监控数据源

FlashDuty 的核心逻辑可以用下面这张图概括:

Flashduty OnCall 核心逻辑

FlashDuty 的关键能力概括如下:

  • 告警集成:目标是在一个Oncall平台上处理所有告警,一般常见的监控工具,都有对接webhook的能力,因此Oncall平台可以对不同监控工具进行接口适配,提供一个相应的webhook,对用户来说配置成本最低。还有一些不那么开放的监控工具,可能只对外提供了发邮件通知的方式,如果Oncall平台能够接受这些邮件并对内容进行解析的话,也是一种兜底的告警集成方式。

  • 标签增强:告警信息中的标签越丰富,工程师在接收到告警的时候处理起来就更高效。现实情况中很多监控工具发送出来的告警只有光秃秃的有限的几个字段,比如机器名、监控项、阈值,如果能对接外部元数据(比如CMDB),对告警的字段进行扩充,那就可以利用扩充出来的字段,更自动化的分发告警,以及在处理故障的时候,让工程师能快速判断告警的影响面和严重程度。

  • 聚合降噪:对相似的告警进行聚合、对频发的告警进行收敛,能够显著降低告警数量,减少对工程师的无效打扰。基于规则、基于语义相似度都是可行的聚合方式。告警的聚合,可以跨监控数据来源,比如来源于Zabbix的告警和来源于Prometheus的告警,如果“相似”,就可以聚合。

  • 告警抑制:可以是高级别的告警抑制低级别的告警,也可是底层基础设施的告警抑制上层模块的告警,总而言之是引入了“某种依赖关系”。这些依赖关系的维护成本较高,且不容易解释,不推荐大规模场景重度使用。

  • 值班排班:目的是避免整个团队被经常性打断。日常值班、节假日值班、临时调班、公平轮换都是排班时要考虑的因素,值班轮换交接时,要有清晰的通知机制。值班人也要有角色的概念,比如主备值班人。

  • 认领:理论上来说,所有的告警都需要被认领。如果一个告警发送出来后,没有人认领,也没有产生任何不良的后果,那这个告警是无意义的,就不应该发送出来。通常会用 MTTA 量化告警认领的效率和效果。

  • 升级/转派:针对不同等级的告警,提前建立清晰的升级路线,会降低Oncall工程师心理压力,有助于快速、准确的解决问题。告警升级可以是手动升级,也可以是自动升级,比如当某个告警超过30分钟未被处理,且未恢复,那么就自动升级到主管或者备份人员,确保问题最终得到及时的处理。

  • 协同:在告警处理的过程中,可以随时把相关的人员拉进来协同(通常,把相关人员拉齐,问题就解决了一半,如果能自动创建 warroom 就更好了),添加协同人时需要准确及时的通知到对方,并把告警处理的过程和时间线,清晰的保留下来,供协作方快速了解全貌。

  • 通知:国外Slack可以连接巨大的周边生态,很多协同工作是在Slack中完成的,说是协同领域的操作系统也不夸张;在国内那就是企微、飞书、钉钉三足鼎立了,这些IM支持开发应用,在这些内置应用中接收告警、认领、关闭、转派、处理,是提升Oncall体验的关键方法。移动办公的体验感,用过都说好。

  • 统计分析运营:告警压缩率、MTTA、MTTR、告警认领比例、告警数量是衡量Oncall效率的关键指标,通过按业务、按团队、按个人等维度分析以上指标,能够有效的推动告警的优化和治理工作,让Oncall更有效率。

各类告警聚合处理

实用的统计分析数据

灵活的排班机制,告警精准触达

免费试用

FlashDuty 是一个 SaaS 产品,通过如下地址免费注册试用(登录之后,页面右上角可以看到演示视频和指引文档):

👉 https://console.flashcat.cloud/

什么价格

我们按照活跃用户(只收告警不处理不算活跃)收费,现阶段每个活跃用户每月 179 元,当然,也有免费套餐,只是功能限制多一些,适合个人用户。

Flashduty-价格

能否私有化部署

可以,不过不建议。建议使用 SaaS 版,我们来统一维护,统一升级,费用较低。如果私有化部署一套,则费用相对较高,适合那些政策层面不允许使用 SaaS 的公司。

创业黄了怎么办

我们创业年头不长,不过已经得到很多知名企业的认可合作,养活自己不成问题,各位老板大可安心:)

Flashcat客户

快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
开源版
Flashcat
Flashduty