那些你不知道自己需要监控的 Linux 暗坑
conntrack 表满、ARP 邻居表溢出、sysctl 静默漂移、TCP listen 队列丢包、CLOSE_WAIT 堆积、fd 耗尽、网卡错误与挂载点漂移——8 个 Linux 内核层「沉默杀手」常不在 Grafana 上显现却能拖垮线上。本文结合 K8s 真实案例讲清原理,并给出可落地的监控与自查思路(含 catpaw)。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
conntrack 表满、ARP 邻居表溢出、sysctl 静默漂移、TCP listen 队列丢包、CLOSE_WAIT 堆积、fd 耗尽、网卡错误与挂载点漂移——8 个 Linux 内核层「沉默杀手」常不在 Grafana 上显现却能拖垮线上。本文结合 K8s 真实案例讲清原理,并给出可落地的监控与自查思路(含 catpaw)。
catpaw(猫爪)是带 AI 的轻量监控 Agent:27 个插件覆盖磁盘、证书、conntrack 等核心风险,单二进制零依赖;告警触发后自动调用 70+ 诊断工具做根因分析,随告警推送诊断报告;登录机器可用 catpaw chat 自然语言排障。适合希望告警不止于现象、而能给出初步结论与处置建议的运维团队。
青山工业基于开源夜莺(Nightingale)打造统一应用可观测平台,整合IT/OT混合架构监控,结合OpenClaw实现AI故障智能根因研判,MTTR降低60%,无效告警减少95%,为汽车零部件行业数字化转型提供落地参考。
博威尔特(博威集团越南光伏制造)夜莺(Nightingale)监控落地案例:夜莺+Prometheus+Categraf 覆盖三地工厂虚拟化、Oracle/MySQL/SQL Server 与产线 MES;告警自动转 ITSM 并联钉钉与知识库,越南语二开。替代 Zabbix 复杂配置与 Excel 巡检,实现告警闭环与运维可视化。
品高软件分享基于夜莺(Nightingale)的云平台统一监控落地实践:通过 bingoMS、bingo_categraf 与夜莺深度融合,实现云平台概览、巡检式监控、虚拟机无 Agent 监控、Ceph 存储详情、磁盘网卡精确告警及错误日志告警,最大规模 500+ 云节点、3000+ 虚拟机、240+ 告警规则。含选型对比、架构设计与实施建议。
联易融数字科技分享基于夜莺 v8 Event Processor 与 FlashDuty 的告警增强与闭环实践:通过 Event Update 自动关联日志与 K8s 事件、Callback 执行 SOP 自动诊断、FlashDuty 实现值班与故障闭环,告警噪音降低超 60%,值班体验与故障可追溯性显著提升。含架构设计、实施经验与 AI 值守规划。
极豆科技分享基于夜莺(Nightingale)的统一监控落地实践:面对 20 个 Kubernetes 集群的监控碎片化,用夜莺替代多套 Prometheus+Grafana,实现多数据源接入、告警动态路由与智能抑制,故障定位时间缩短至 15 分钟内,告警误报率下降 76%。含选型对比、架构设计与告警治理经验。
通过数据过滤、告警分级与 Flashduty 协同,让 RUM 告警聚焦关键问题,减少无效干扰。
catpaw(猫爪)是一个轻量级事件监控工具,仅一个二进制、零依赖,内置 27 个插件覆盖磁盘、CPU、证书、conntrack 等服务器核心风险点。本文介绍了 catpaw 的设计理念、插件体系、快速上手方法,并探讨了为什么它是目前最适合验证 AI 编程能力的开源项目之一——插件高度独立、问题域明确、验收闭环极短,非常适合用 AI 写出属于你自己的监控插件。
新浪CDN技术团队分享基于夜莺监控(Nightingale)和VictoriaMetrics构建CDN边缘节点监控体系的实践经验,涵盖监控选型对比、架构设计、Categraf批量部署、API集成及自动化运维闭环等关键环节。
恒生电子介绍了如何基于夜莺(Nightingale)+ Categraf + VictoriaMetrics + VictoriaLogs,在万级节点、数十万应用实例的金融场景下,构建指标+日志+网络链路一体化监控体系,并通过自研 eBPF 抓包插件实现网络故障的秒级发现与分钟级定位。文章涵盖选型对比、架构设计、eBPF 关键指标、动态 label 治理等实战经验。
微服务一次请求跨多个服务,定位慢点常靠分布式追踪的 Trace 瀑布图。本文基于 Jaeger、SkyWalking、Grafana Tempo,总结 6 类高频瀑布图模式与性能问题映射:慢SQL、串行调用未并行化、N+1 查询、重试风暴与超时级联、熔断降级、连接池/线程池耗尽,并给出对应的排查与优化思路。
Nightingale(夜莺)发布官方 MCP Server(Model Context Protocol),让 Cursor/OpenCode 等 AI 助手通过自然语言调用夜莺 API:查询活跃/历史告警、查看规则与订阅、管理屏蔽与通知、搜索监控目标。本文包含 Token 获取、配置示例与可用工具列表。
很多团队只做 CPU/内存等机器指标或 SLI 告警,却忽略了 ERROR 日志数量告警。本文说明为什么它 ROI 极高,并给出基于日志中心化收集、ETL 与 Loki/ElasticSearch/VictoriaLogs 的告警规则思路,帮助你用日志告警为指标告警兜底、驱动日志级别治理。
详解如何在 Flashduty RUM 中配置和使用分布式追踪功能,基于 W3C Trace Context 标准,将前端用户操作与后端 API 调用关联,实现端到端的性能监控和问题排查。
Categraf,一站式的监控数据采集Agent,支持混合云架构和云原生架构,由夜莺监控核心团队开发。
在 2025 年,将 AI Agent 部署到生产环境需要全新的监控和可观测性策略。本文介绍了关键指标、成本监控、结构化日志和分布式追踪的最佳实践,帮助团队确保 AI Agent 的可靠性和性能。
任何方向要真正落地智能化,首先要完成数据建设,以达到AI-Ready状态,再用AI做最后一公里的催化剂。可观测性方向如何才能做到AI-Ready?本文介绍Flashcat完成AI-Ready建设的方法。
这将是一个系列,讲解夜莺监控的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。本篇聊聊夜莺最核心的逻辑:告警。涉及告警事件的产生、告警事件的后续处理、告警事件的通知。
这将是一个系列,讲解夜莺监控的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。本篇聊聊夜莺里跟机器相关的那些事,机器的数据采集、机器的归组打标签、机器的元信息、机器的告警分派等。