引入 AI 分析故障,Flashduty 又进步了
钱程
2025-07-29 09:43:03
有了 AI 之后,只要能把问题描述清楚,通常都能得到还不错的答案,我感觉自己现在强的可怕 🤣 你呢?
可观测性产品里引入 AI,通常是从两个方向入手:
- 故障本身的分析。让用户对当前故障有更清晰的了解。
- 故障相关的观测数据的分析。产生故障定位结论。
Flashduty 作为一站式告警 On-call 平台,会把各个监控系统的告警事件聚拢到一起,把相似的告警收敛为 故障(incident),所以,在 Flashduty 中要提供故障本身的分析总结能力,这就理所当然。
Flashduty 是我们创业做的一款 SaaS 产品,解决告警分散、告警风暴、告警遗漏等问题。
夜莺监控中也提供了 AI Summary 的事件 Processor,但是那仅是针对单个事件的,而很多时候,故障会催生一堆告警,对此场景,夜莺现在还没法很好的处理。
Flashduty 产品伊始,就有 incident 概念,incident 里会聚合一堆相似的告警,这样引入 AI 分析,效果就更好了。举个例子,下面是某个故障中包含的三个告警:
点击“AI总结”,即刻生成如下总结内容:
把一堆零散的告警事件(可能来自不同的监控系统),总结为人类易于理解的信息。上面的 incident 中只有 3 条告警事件,如果里边有 300 条,那效果就会更显著。
感兴趣的小伙伴可以免费注册体验 Flashduty:https://console.flashcat.cloud/ 这类生产力工具,绝对是可以提升员工幸福感的。
创业四年了,感谢小伙伴们一路支持,希望今天介绍的功能能够对你胃口,祝你工作顺利:)