Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。

最新文章

监控重要事项:大规模系统的告警实践

译文 · 2025-04-08

在现代分布式系统中,性能不仅仅是速度——它是在规模上平衡延迟、可用性和资源效率的问题。有效的警报对于维持这种平衡至关重要。没有它,团队可能会错过真正的故障,对假阳性反应过度,或者对缓慢的退化视而不见。本指南概述了设计重要警报的实用方法——这样您就可以捕捉到出错的,忽略那些没有问题的,并自信地扩展。

告警的一体两面:漏报和误报

快猫运营团队 · 2025-03-18

你好,我是一条告警事件,很多研发、运维人员都害怕我来,因为这意味着线上出现了问题。但是,有时候我不来,反而更可怕,因为这意味着问题可能已经存在,只是没有被发现。很多人都苦恼一个问题:到底应该按照什么原则来配置告警,才能不漏报、不乱报?笔者做监控这个方向 10 年了,今天就来分享一下我的一点心得,希望对你有所帮助。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云