Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。

最新文章

品高软件夜莺监控实践:私有云统一可观测与云平台融合

品高软件 · 2026-03-18

品高软件分享基于夜莺(Nightingale)的云平台统一监控落地实践:通过 bingoMS、bingo_categraf 与夜莺深度融合,实现云平台概览、巡检式监控、虚拟机无 Agent 监控、Ceph 存储详情、磁盘网卡精确告警及错误日志告警,最大规模 500+ 云节点、3000+ 虚拟机、240+ 告警规则。含选型对比、架构设计与实施建议。

3 天爆肝 3 万行代码,一个因 AI 编程而生的轻量监控项目

秦晓辉@快猫星云 · 2026-03-01

catpaw(猫爪)是一个轻量级事件监控工具,仅一个二进制、零依赖,内置 27 个插件覆盖磁盘、CPU、证书、conntrack 等服务器核心风险点。本文介绍了 catpaw 的设计理念、插件体系、快速上手方法,并探讨了为什么它是目前最适合验证 AI 编程能力的开源项目之一——插件高度独立、问题域明确、验收闭环极短,非常适合用 AI 写出属于你自己的监控插件。

恒生电子实践:基于夜莺+eBPF构建金融级万节点一体化监控体系

恒生电子研发团队 · 2026-02-27

恒生电子介绍了如何基于夜莺(Nightingale)+ Categraf + VictoriaMetrics + VictoriaLogs,在万级节点、数十万应用实例的金融场景下,构建指标+日志+网络链路一体化监控体系,并通过自研 eBPF 抓包插件实现网络故障的秒级发现与分钟级定位。文章涵盖选型对比、架构设计、eBPF 关键指标、动态 label 治理等实战经验。

Trace瀑布图解析:6种常见模式快速定位微服务性能瓶颈(Jaeger/SkyWalking/Tempo)

快猫运营团队 · 2026-02-26

微服务一次请求跨多个服务,定位慢点常靠分布式追踪的 Trace 瀑布图。本文基于 Jaeger、SkyWalking、Grafana Tempo,总结 6 类高频瀑布图模式与性能问题映射:慢SQL、串行调用未并行化、N+1 查询、重试风暴与超时级联、熔断降级、连接池/线程池耗尽,并给出对应的排查与优化思路。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云