博威尔特夜莺监控用户案例:越南三地工厂、ITSM 工单闭环与 MES
公司和业务介绍
博威尔特是博威集团旗下的越南分公司,隶属于新能源光伏赛道,行业细分属于工厂制造业。我们的 IT 部门是集团共享服务中心,负责越南当地 3 家工厂的 IT 基础设施运维,监控范围涵盖服务器、数据库、网络设备以及产线 MES 电脑等。
作为一家在越南落地的中国制造企业,我们面临的核心挑战不仅仅是"监控什么",更是"怎么让越南本地 IT 同事把监控真正用起来"。
监控需求与痛点
监控对象
- 基础设施:约 300 台虚拟机、6-8 台物理机,分布在越南 3座工厂
- 数据库:20余台,涵盖 Oracle、MySQL、SQL Server等
- 业务应用:MES 系统服务、中间件进程(CPU/内存)
- 终端设备:数百台产线 MES 电脑
- 网络设备:交换机等网络上下行流量、TCP 连接数
痛点
-
Zabbix 配置复杂,学习成本高:在我来之前,公司主要使用 Zabbix 做监控。Zabbix 的监控项和告警规则配置比较繁琐,而且不同监控对象可能需要安装和配置多种 Agent,对于越南本地 IT 同事来说,学习门槛太高了。
-
缺乏工单联动,告警处理无闭环:告警发出来之后,没有和公司内部 ITSM 系统打通,无法自动派发工单给越南同事,处理进度也没法追踪。经常出现磁盘或数据库告警被搁置,等到影响生产了才去处理,IT 部门的响应能力被业务部门质疑。
-
巡检依赖人工,效率低:越南同事每周需要手动逐台巡检服务器,然后记录在 Excel 中,耗时且容易遗漏。
-
运维数据是黑箱:没有统一的监控大盘,基础设施的运行状态缺乏可视化,出了问题才知道,日常无法提前预判。
-
国际化能力缺失:作为越南本地公司,急需一个支持多语言(尤其是越南语)的监控系统,让本地同事能看懂界面和告警内容。
选型与决策
我们对比了两种方案:
| 维度 | Zabbix | 夜莺 + Prometheus + Categraf |
|---|---|---|
| 配置复杂度 | 监控项、触发器、动作配置繁琐 | 监控规则直观,内置模板丰富 |
| Agent 管理 | 不同场景可能需要多种 Agent | Categraf 统一采集,一个 Agent 覆盖多种场景 |
| 告警对接 | 二次开发成本较高 | Webhook + 回调机制灵活,易对接 ITSM |
| 多语言/出海 | 国际化支持有限 | 开源可二次开发,我们实现了越南语本地化 |
| 资产管理 | 需要额外工具 | 监控对象天然可作为 CMDB 台账 |
| 可视化 | 自带仪表盘能力一般 | 自定义大盘灵活,最新版本还支持报表导出 |
| 整体体验 | 功能全但模块分散 | 集成了 Prometheus + AlertManager 的能力,体验更统一 |
最终选择夜莺的核心原因:
- 简单:配置监控和告警门槛低,越南同事可以快速上手。对于产品出海来说,简单就是最大的优势。
- 开源可二开:我们可以做越南语翻译、对接内部 ITSM、集成知识库等定制开发。
- 统一体验:我个人之前在其他公司用过 Prometheus + AlertManager 的方案,各组件比较割裂。夜莺做了很好的集成,监控、告警、大盘、资产管理都在一个平台上。
- 监控对象即台账:夜莺的监控对象管理功能可以直接充当我们的 CMDB,不需要再单独维护一套资产台账。
架构与落地过程
部署架构
采用夜莺官方推荐的高可用部署方案,两台服务器部署夜莺服务端,Prometheus 作为时序数据库存储,Categraf 作为统一采集 Agent。
┌─────────────────────────────────────────────────┐
│ 夜莺服务端(HA 双节点) │
│ 告警引擎 / 监控对象 / 大盘 / 报表 │
├─────────────────────────────────────────────────┤
│ Prometheus(时序存储) │
├──────────┬──────────┬──────────┬────────────────┤
│ 工厂 A │ 工厂 B │ 工厂 C │ ──→ ITSM │
│ Categraf │ Categraf │ Categraf │ ──→ 钉钉 │
│ ~100 VMs │ ~100 VMs │ ~100 VMs │ ──→ 知识库 │
│ 物理机 │ 物理机 │ 物理机 │ │
│ 数据库 │ 数据库 │ 数据库 │ │
│ MES 电脑 │ MES 电脑 │ MES 电脑 │ │
└──────────┴──────────┴──────────┴────────────────┘
落地步骤
第一步:Agent 标准化打包
我们把主机、物理机、数据库、网络设备和 MES 电脑的 Categraf Agent 参数提前配置好并打包。每种监控对象都有对应的配置模板,越南同事在申请新服务器或设备上线时,按照 SOP 文档部署 Agent 即可,不需要理解复杂的配置逻辑。
第二步:监控对象作为 CMDB 台账
Agent 上报后,设备自动出现在夜莺的监控对象列表中,我们按工厂和业务维度做了分组。这个列表同时就是我们的资产台账,做到了"监控即登记"。
第三步:告警规则预置 + 中越双语
我们提前配置了涵盖主机、数据库、网络等场景的告警规则,告警内容使用中越双语,确保越南同事能看懂告警含义并知道如何处理。

第四步:监控大盘建设
按业务项目维度建立了十余个监控大盘,涵盖:
- 主机:磁盘使用率、内存使用率、CPU 负载
- 数据库:Oracle/MySQL/SQL Server 表空间、连接数
- 网络:上下行流量、TCP 连接数
- MES:服务进程 CPU/内存、关键中间件状态
要求越南同事每天早上打开大盘进行例行巡检,取代了原来的手动巡检。
第五步:ITSM 工单联动(核心亮点)
这是我们二次开发的重点。通过开发对接模块,将夜莺的告警事件自动转发到公司内部 ITSM 系统:
- 夜莺产生告警 → 自动创建 ITSM 工单
- 越南同事同时在钉钉收到告警通知
- 越南同事按照知识库指引处理问题
- 处理完成后关闭 ITSM 工单
- 工单处理时效与绩效考核挂钩
这个闭环让告警不再是"看一眼就过",而是有人跟进、有记录、有考核。
第六步:越南语本地化 + 知识库集成
我们对夜莺进行了多语言二次开发,实现了地道的越南语界面翻译。同时在夜莺页面中集成了公司内部运维知识库的链接入口,越南同事遇到告警可以直接跳转查阅处理方案。
我们的理念是:把夜莺打造成越南 IT 团队的运维监控中心,日常工作从这里开始。只有用起来的系统,才能常用常新,越用越好用。
成果与数据
前后对比
| 维度 | 使用夜莺之前 | 使用夜莺之后 |
|---|---|---|
| 巡检方式 | 每周手动逐台巡检,记录在 Excel | 每天早上看大盘,5 分钟完成巡检 |
| 告警处理 | 告警被搁置,等影响生产才处理 | 告警即工单,实时通知,限时处理 |
| 运维数据 | 黑箱状态,出问题才知道 | 大盘可视化,异常提前预判 |
| 本地 IT 能力 | 不了解监控,依赖中方团队 | 会装 Agent、会看大盘、会设规则、会处理告警 |
| 资产管理 | 无统一台账 | 监控对象即 CMDB |
| 告警闭环 | 无流程保障 | ITSM 工单 + 钉钉通知 + 绩效考核 |
具体收益
- 运维数据透明化:所有基础设施的运行状态不再是黑箱。有报警就踏实——知道系统在被守护着。
- 告警响应提速:之前磁盘告警或数据库报警被拖延处理、影响生产的情况基本消除,IT 部门的口碑也有了改善。
- 本地团队成长:越南同事从之前不重视监控,到现在已经学会了安装 Agent、处理告警、查看和设置监控大盘、配置监控规则。这一点是我们最满意的成果。
- 手动巡检归零:越南同事每周数小时的手动巡检 + Excel 记录工作完全取消,现在大家可以安心喝咖啡了。
经验与避坑
时区与时间同步(最大的坑)
Categraf 采集数据依赖系统时间,所有被监控主机和夜莺服务端之间的时间差异不能太大,否则会频繁报错、数据异常。在越南的环境中,不同工厂的服务器时间设置不一定统一,这个问题尤其突出。
建议:所有主机务必配置 NTP 自动时间同步,部署监控前先把时间问题解决掉。这个看似小事,但能省掉很多排查时间。社区目前也在改进这方面的容错机制。
Agent 标准化是关键
不要让本地同事去理解配置细节,而是提前把不同场景的 Agent 配置打包好,提供傻瓜式 SOP。降低门槛比什么都重要。
让系统真正被使用
上了监控系统不等于有了监控能力。关键是要融入团队的日常工作流程——每天看大盘、告警驱动工单、工单关联考核。不被使用的系统只是一个摆设。
未来计划
- Agent 自动化部署:将 Categraf 内置到虚拟机镜像模板中,或在 OA 系统申请服务器时根据用途自动生成 Categraf 配置并安装 Agent,实现"上线即监控"。
- AI 驱动监控规则:引入 AI 能力,根据业务类型和历史数据自动生成和调优监控规则,减少人工配置。
- 告警自愈:利用夜莺 ibex 模块,实现告警触发后自动执行脚本,比如磁盘空间不足时自动清理日志、数据库日志文件过大时自动归档,从"人工处理告警"走向"告警自动处置"。
建议与期待
- 拥抱出海,大有可为:中国企业出海是大趋势,监控系统的国际化需求会越来越多。夜莺产品设计人性化、功能简单易上手,这对出海场景是巨大的优势。建议官方加强多语言支持的能力,降低社区贡献翻译的门槛。
- 内置巡检报表:目前最新版本已经有报表导出功能,建议进一步内置一些常用的巡检报表模板(日报/周报),方便直接使用或稍作修改就能满足需求。
- 时间同步容错:继续完善 Agent 和服务端之间的时间差异容错能力,对于海外部署场景尤为重要。
夜莺项目开源地址:https://github.com/ccfos/nightingale 欢迎收藏。