Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Root Cause

告警发出来之后，谁来查根因？

拆解告警与排障之间的真空区，理解 AI 参与根因初筛的合理边界。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

Vector 日志采集实战：采集夜莺日志推送 VictoriaLogs 完整教程

巴辉特 · 2026-01-09

详细教程：使用 Vector 采集 Nightingale 夜莺监控系统日志并推送至 VictoriaLogs，包含 Docker 容器化部署、VRL 日志解析配置、Elasticsearch 协议对接等完整实践步骤。

UDP端口探活的那些细节

孔飞@快猫星云 · 2026-01-09

UDP 是无连接的，无法用建立连接的形式判断端口是否存活，如何为 Categraf 实现一个简单通用的 UDP 探测插件呢？

重构 Categraf SNMP 调度器：从随机抖动到确定性自适应

宋芮涛@Zenlayer 孔飞@快猫星云 · 2026-01-09

剖析 Categraf 针对 SNMP 插件的调度重构过程。从最初的简单 Ticker 到参考 Zabbix 实现最小堆与墙上时钟对齐，再到通过 0.85 因子实现自适应流量整形，解决采集周期漂移与设备负载突增问题。

网络监控：交换机监控新姿势

网络小斐 · 2026-01-09

介绍网络监控的新方案，用 Categraf 的 SNMP 插件配合 VictoriaMetrics 和 Grafana 替代 SNMP Exporter 加 Prometheus，并演示采集配置。

Categraf 监控采集器常见问题汇总

巴辉特 · 2026-01-09

本文汇总了 Categraf 监控采集器在使用过程中常见的问题及其解决方案，帮助用户更好地配置和使用 Categraf，实现高效的监控数据采集与上报。

Categraf 托管与自升级

孔飞@快猫星云 · 2026-01-09

本文介绍 Categraf 如何通过一条命令完成自身的托管、服务启停、状态查看、自动升级。

网络监控：无线监控这个面板好养眼

网络小斐 · 2026-01-09

来自社区用户写的文章，利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus，紧接上篇对交换机的监控，本篇是一个无线设备的监控的案例

通过 Categraf SNMP 插件采集监控数据

秦晓辉@快猫星云 · 2026-01-09

支持 SNMP 方式采集数据的 agent 有很多，Telegraf、Categraf、Datadog-agent、snmp-exporter等，我们这次来介绍 Categraf，举一反三，原理上都是一样的。

Categraf SNMP 插件优化：解析带单位的监控指标

孔飞@快猫星云 · 2026-01-09

Categraf SNMP 插件通过启发式算法自动提取带单位字符串中的数值，解决浪潮等服务器返回 60 degree Celsius 格式导致指标采集失败的问题，无需正则即可智能解析温度、电流等复杂格式。

如何监控多个进程的存活和CPU、内存占用

快猫运营 · 2026-01-09

本文介绍如何使用夜莺监控（Nightingale）和 Categraf 来监控多个进程的存活性以及 CPU、内存等资源占用情况。

Nginx stub status采集

孔飞@快猫星云 · 2026-01-09

本文讲解如何从头开始编译http_stub_status_module模块，并使用input.nginx插件采集指标。

Nginx upstream采集

孔飞@快猫星云 · 2026-01-09

本文讲解如何添加nginx_upstream_check模块，并使用input.nginx_upstream_check插件采集指标。

Nginx vts采集

孔飞@快猫星云 · 2026-01-09

本文讲解如何添加vts模块，并使用input.prometheus插件采集指标。

巧用Categraf探针mtail插件实现系统日志监控告警

李沈阳@海信 · 2026-01-09

目前市面上对于日志监控告警的主流方案主要围绕ELK及其变种展开，通过探针采集系统日志写入Kafka，然后基于Kakfa消费数据写入ES，采用定时查询ES 做异常告警；另一种方案则是基于Kafka流式数据，采用Flink直接做异常告警，架构上比较复杂。这里介绍使用mtail的轻量级方案。

基于告警聚合计数实现集群级告警升级——夜莺 MySQL 数据源实践

巴辉特 · 2025-12-31

在大规模集群环境中，单个节点的低级别告警可能不足以引起运维人员的重视。本文介绍如何利用夜莺监控系统的 MySQL 数据源功能，通过 SQL 查询当前活跃告警数量，实现基于告警聚合计数的集群级告警升级策略，从而提升告警的有效性和响应速度。

从一个 Issue 谈 PID 1 与 Reaping 机制

孔飞@快猫星云 · 2025-12-29

深入解析 Categraf 僵尸进程治理方案。本文基于 GitHub Issue #1261，详细剖析了在容器化环境下 PID 1 导致的资源泄漏问题，并展示了如何通过 Go 语言实现 reapDaemon、利用 SIGCHLD 信号与 wait4 系统调用优雅地清理僵尸进程，提升系统稳定性

如何成为一名具备产品思维的工程师

译文 · 2025-12-29

具备产品思维的工程师是那些对产品本身有浓厚兴趣的开发人员。他们希望了解决策背后的原因，人们如何使用产品，并乐于参与产品决策。本文将探讨具备产品思维的工程师所共有的9个特质，并为所有工程师提供培养产品思维的建议。

Kubernetes OOM 和 CPU Throttling 问题

JAVIER MARTÍNEZ · 2025-12-26

深入解析 Kubernetes OOM 和 CPU Throttling 问题：理解 limits/requests 配置、内存过量分配、CPU shares 机制，以及如何通过 Prometheus 指标监控和预防资源耗尽导致的 Pod 被杀或限流。

Kubernetes 中必备的 10 个告警处置方法

COSTAS PIPILAS · 2025-12-26

Kubernetes 必备 10 个告警配置及处置方法：涵盖 CPU 过高、Kubelet 卷管理器故障、API Server 错误、节点资源压力、Pod 状态异常、ETCD leader 变更等关键场景的监控与排查命令。

Prometheus 14 点实践经验分享

Julius Volz · 2025-12-26

Prometheus 14 点最佳实践：包括 USE/RED 方法论、标签基数控制、指标命名规范、告警症状而非原因、rate 和 sum 顺序等核心经验，来自 PromCon 2017 的经典分享。

Flashcat 博客

精选内容

AI SRE 智能排障解决方案

告警发出来之后，谁来查根因？

Flashcat vs Zabbix

最新文章

Vector 日志采集实战：采集夜莺日志推送 VictoriaLogs 完整教程

UDP端口探活的那些细节

重构 Categraf SNMP 调度器：从随机抖动到确定性自适应

网络监控：交换机监控新姿势

Categraf 监控采集器常见问题汇总

Categraf 托管与自升级

网络监控：无线监控这个面板好养眼

通过 Categraf SNMP 插件采集监控数据

Categraf SNMP 插件优化：解析带单位的监控指标

如何监控多个进程的存活和CPU、内存占用

Nginx stub status采集

Nginx upstream采集

Nginx vts采集

巧用Categraf探针mtail插件实现系统日志监控告警

基于告警聚合计数实现集群级告警升级——夜莺 MySQL 数据源实践

从一个 Issue 谈 PID 1 与 Reaping 机制

如何成为一名具备产品思维的工程师

Kubernetes OOM 和 CPU Throttling 问题

Kubernetes 中必备的 10 个告警处置方法

Prometheus 14 点实践经验分享