Vector 日志采集实战:采集夜莺日志推送 VictoriaLogs 完整教程
详细教程:使用 Vector 采集 Nightingale 夜莺监控系统日志并推送至 VictoriaLogs,包含 Docker 容器化部署、VRL 日志解析配置、Elasticsearch 协议对接等完整实践步骤。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
详细教程:使用 Vector 采集 Nightingale 夜莺监控系统日志并推送至 VictoriaLogs,包含 Docker 容器化部署、VRL 日志解析配置、Elasticsearch 协议对接等完整实践步骤。
UDP 是无连接的,无法用建立连接的形式判断端口是否存活,如何为 Categraf 实现一个简单通用的 UDP 探测插件呢?
剖析 Categraf 针对 SNMP 插件的调度重构过程。从最初的简单 Ticker 到参考 Zabbix 实现最小堆与墙上时钟对齐,再到通过 0.85 因子实现自适应流量整形,解决采集周期漂移与设备负载突增问题。
介绍网络监控的新方案,用 Categraf 的 SNMP 插件配合 VictoriaMetrics 和 Grafana 替代 SNMP Exporter 加 Prometheus,并演示采集配置。
本文汇总了 Categraf 监控采集器在使用过程中常见的问题及其解决方案,帮助用户更好地配置和使用 Categraf,实现高效的监控数据采集与上报。
本文介绍 Categraf 如何通过一条命令完成自身的托管、服务启停、状态查看、自动升级。
来自社区用户写的文章,利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,紧接上篇对交换机的监控,本篇是一个无线设备的监控的案例
支持 SNMP 方式采集数据的 agent 有很多,Telegraf、Categraf、Datadog-agent、snmp-exporter等,我们这次来介绍 Categraf,举一反三,原理上都是一样的。
Categraf SNMP 插件通过启发式算法自动提取带单位字符串中的数值,解决浪潮等服务器返回 60 degree Celsius 格式导致指标采集失败的问题,无需正则即可智能解析温度、电流等复杂格式。
本文介绍如何使用夜莺监控(Nightingale)和 Categraf 来监控多个进程的存活性以及 CPU、内存等资源占用情况。
本文讲解如何从头开始编译http_stub_status_module模块,并使用input.nginx插件采集指标。
本文讲解如何添加nginx_upstream_check模块,并使用input.nginx_upstream_check插件采集指标。
本文讲解如何添加vts模块,并使用input.prometheus插件采集指标。
目前市面上对于日志监控告警的主流方案主要围绕ELK及其变种展开,通过探针采集系统日志写入Kafka,然后基于Kakfa消费数据写入ES,采用定时查询ES 做异常告警;另一种方案则是基于Kafka流式数据,采用Flink直接做异常告警,架构上比较复杂。这里介绍使用mtail的轻量级方案。
在大规模集群环境中,单个节点的低级别告警可能不足以引起运维人员的重视。本文介绍如何利用夜莺监控系统的 MySQL 数据源功能,通过 SQL 查询当前活跃告警数量,实现基于告警聚合计数的集群级告警升级策略,从而提升告警的有效性和响应速度。
深入解析 Categraf 僵尸进程治理方案。本文基于 GitHub Issue #1261,详细剖析了在容器化环境下 PID 1 导致的资源泄漏问题,并展示了如何通过 Go 语言实现 reapDaemon、利用 SIGCHLD 信号与 wait4 系统调用优雅地清理僵尸进程,提升系统稳定性
具备产品思维的工程师是那些对产品本身有浓厚兴趣的开发人员。他们希望了解决策背后的原因,人们如何使用产品,并乐于参与产品决策。本文将探讨具备产品思维的工程师所共有的9个特质,并为所有工程师提供培养产品思维的建议。
深入解析 Kubernetes OOM 和 CPU Throttling 问题:理解 limits/requests 配置、内存过量分配、CPU shares 机制,以及如何通过 Prometheus 指标监控和预防资源耗尽导致的 Pod 被杀或限流。
Kubernetes 必备 10 个告警配置及处置方法:涵盖 CPU 过高、Kubelet 卷管理器故障、API Server 错误、节点资源压力、Pod 状态异常、ETCD leader 变更等关键场景的监控与排查命令。
Prometheus 14 点最佳实践:包括 USE/RED 方法论、标签基数控制、指标命名规范、告警症状而非原因、rate 和 sum 顺序等核心经验,来自 PromCon 2017 的经典分享。