Flashduty 案例分享 - 益丰大药房

秦晓辉@快猫星云 2023年11月23日

Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。

本次采访的是来自益丰大药房的高级运维工程师张望。益丰大药房是一家连锁零售药房企业,有上万家门店,官网是https://www.yfdyf.com/,已于主板上市,股票代码:603939,颇具规模。

20231124080223

Question:张望老师您好,请问在选择 Flashduty 之前,贵司是如何做告警事件管理和触达的呢?

Answer:我们内部有多套不同的监控系统,用于机器和网络设备监控的 Zabbix,用于中间件和应用监控的 Prometheus + Nightingale,同时也使用了多家云厂商的云监控,用于云资源的监控。

不同的监控系统都会发出告警,但是缺少了统一的告警聚合降噪、认领升级能力,Zabbix、Prometheus、Nightingale 我们主要发企微告警,云监控主要打电话发短信。因为主要告警消息在企微群里,缺少比较好的认领机制,有时告警不能及时处理酿成故障,这是我们之前的主要痛点。

另外就是有时会短期触发特别多告警出来,而且是不同监控系统产生,重要的不重要的告警混杂在一长串的企微消息里,看起来费劲,也容易忽略重要告警。这多个监控系统中,Prometheus 生态的 Alertmanager 会有一定的降噪能力,但是需要维护 yaml 配置,容易出错,不方便管理,整体就感觉比较苦恼。

Question:您内部的告警事件现在都迁移到 Flashduty 了么?目前效果如何?是否有一些建议给我们?

Answer:是的,主要监控系统的告警事件都推到 Flashduty 了。目前整体效果还不错。上次我们大数据团队提的那个需求,希望在推告警事件给 Flashduty 时,携带一些自定义的通知人和升级逻辑,我看你们也抽象为产品能力支持了,大数据团队负责人钱哥也表示效果符合预期。

Question:您在调研事件 OnCall 产品时应该也看过其他竞品,最终选择 Flashduty 的原因可否分享一二?

Answer:是的,因为公司要求必须要对比多家产品,我们深度调研了两个产品,另外也考虑自研,整体算是三个方案一起决策。自研的话比较可控,就是担心人员流动之后后面留下烂摊子,另外事件中心不是我们的核心业务产品方向,我们主要是做药房生意的,这类辅助类功能,老板也不愿意投入过多人力。外采的产品性价比还可以,所以最终决定外采。

对比市面上的产品之后最终选择 Flashduty,主要是感觉你们的 UI 还挺现代化的,告警分派、认领升级也比较灵活,对我们是够用了。另外大数据团队提的需求你们响应很及时,这也是个加分项。

另外我们也在用 Nightingale,之前也做过一些交流,感觉你们在监控告警这块比较专业,这也是一个小的加分项。

Question:感谢张望老师,对于后面的产品方向和合作方面,您是否有一些建议给到我们呢?

Answer:我们内部同事聊天的时候,普遍觉得你们有个优点可以保持下去,就是愿意随着客户一起迭代、一起成长。其实我们团队在公司内部也做了很多年监控了,也还是会间歇性有一些新需求新想法,一个系统没法说一旦落地就永远不动了。能够不断迭代,持续优化产品,能够持续支持客户的业务发展、支持客户的新想法落地,我觉得非常关键,这一点希望你们可以保持下去。

关于Flashduty

🛎️ Flashduty 中心化告警处理,在正确的时间通知正确的人

20231123151522

20231123151528

💸 每一分钟都很关键,降低故障时间,就是赚钱

20231123151540

20231123151546

20231123151554

🖇️ 您常用的监控系统,我们都可以集成

20231123151607

告警事件的及时处理,对于线上稳定性保障至关重要。一款中心式的告警事件 OnCall 中心,去除告警风暴,确保告警不遗漏,还能分析故障处理的MTTA、MTTR等效率指标,先进的团队需要拥有,快来免费体验吧:https://flashcat.cloud/product/flashduty/

标签: FlashDuty
开源版
Flashcat
Flashduty