八维通科技:20 多个机房、20+ 集群如何用夜莺实现统一监控与告警管理

八维通科技在全国管理 20 多个机房、20+ 套集群和上千台服务器,原有 Prometheus、Zabbix、CAT 多套监控分散。本文介绍其基于 Nightingale 商业版、VictoriaMetrics 和 vmagent 实现统一监控、告警治理与日志查询,并将运维维护成本降低约 50% 的落地实践。

作者 快猫星云

案例摘要

维度 信息
行业 智慧出行、数字票务
原有系统 Prometheus、Zabbix、CAT 等多套分散监控系统
规模 20 多个机房、20+ 套集群、上千台服务器
核心痛点 多平台割裂、告警规则分散、跨地域运维难以快速筛选和定位问题
采用方案 Nightingale 商业版 + vmagent + VictoriaMetrics,统一承接监控展示、告警治理、日志查询
结果 实现统一监控与告警平台建设,运维维护成本降低约 50%,研发无需频繁登录多个平台和云账号
相关产品 Nightingale(夜莺监控)统一可观测解决方案

八维通科技在全国范围内管理 20 多个机房、20+ 套集群和上千台服务器,基础设施、应用与网络链路分布广、类型杂。随着业务扩展,原有由 Prometheus、Zabbix、CAT 等工具组成的监控体系逐渐暴露出平台分散、规则维护成本高、跨地域告警筛选困难等问题。为此,团队选择 Nightingale 商业版作为统一监控与告警平台,并结合 vmagent 与 VictoriaMetrics 完成底层架构升级。

公司介绍

八维通科技是中国中车旗下、聚焦空间智能与数字孪生的国家级专精特新 “小巨人” 企业,从智慧出行起家,现已拓展为城市级空间智能服务商。

  • 全球首个提出城市轨道交通移动互联网数字票务解决方案,包揽全国首批轨交二维码乘车全线开通案例。
  • 业务覆盖:34 个城市轨道交通、19 个城市公交数字票务,延伸至景区、高速、通卡、加油等场景。
  • 核心产品:数字票务、人脸支付、MaaS 出行服务、地铁乘客个人碳账户系统。

背景与痛点

在日常运维中,需要同时管理二十多个机房、20+ 套集群和上千台服务器。各个机房分布在全国各地,对监控稳定性和运维效率都有较高要求。

  • 基础设施:物理机、虚拟机、容器、网络设备,遍布全国各地
  • 应用服务:核心业务应用、微服务、开源中间件、商业应用
  • 网络链路:跨机房、跨集群

原有监控体系中,Prometheus 负责基础服务监控,Zabbix 负责硬件层监控,CAT 负责业务层监控。整体比较分散,需要登录多个平台进行配置和查看;各团队还要分别熟悉不同平台的告警规则并单独调整,运维人员也无法快速筛选各个城市的告警。

选型过程

为了方便所有运维人员统一维护,团队最终选择夜莺(商业版)进行管理。

  1. 夜莺界面化的告警规则管理
  2. 夜莺告警支持多数据源
  3. 夜莺强大的权限管理,区分开发和运维人员

落地过程

团队将原来的 Prometheus 联邦模式升级为 vmagent + VictoriaMetrics + 夜莺 的组合,去掉了 Prometheus + Alertmanager + prometheusalert 这套链路。

  1. 夜莺北极星负责业务监控的展示和告警
  2. 夜莺灭火图负责基础设施的展示和告警
  3. 夜莺仪表盘替换掉 Grafana,负责展示基础数据
  4. 夜莺日志分析负责查询阿里云和华为云的日志,开发不再单独分配云端权限
  5. 通过夜莺和 Zabbix 对接,Zabbix 告警也实现通过夜莺进行配置
  6. 实现夜莺作为告警的最终平台,节省运维多个平台跳转的繁琐
  7. 提供了更完善的大屏能力,更直观地展示监控数据

效果与收益

  1. 节省运维人员 50% 的维护成本
  2. 节省开发登录多平台查询日志
  3. 根据空间切换,各地运维只需关注自己的监控

亮点实践

根据「快猫星云」的实践经验,我们整理了业务的关键北极星指标,覆盖了业务主流程。只要这些指标没问题,业务肯定就是没问题的。如果只是梳理 CPU、内存、磁盘、各类 DB 等基础指标,很难梳理全面,但是业务是可以梳理全面的,所以告警层面只要能覆盖这些核心业务指标,就可以起到极好的兜底效果。

其次就是灭火图,北极星是业务指标,灭火图是技术体系的驾驶舱,主要是梳理 SLI 指标,参考 Google 的四个黄金指标和 RED 等方法论。

Google SRE 那本书说,生产环境 70% 的故障是变更导致的,所以我们引入了“事件墙”,把变更和重要告警放到一起分析,如果产生故障,可以从时间维度查看近期的变更,会有很强的相关性。

日志检索这块,我们使用的云厂商的云日志存储,但是给每个研发配置云账号非常痛苦,最后还是用了夜莺商业版的日志检索,在权限管控上比较灵活方便。

结语

监控、可观测性是个持续运营的活,好工具+好运营=好效果。祝愿各位读者永不宕机,且让老板看到价值!

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云