青山工业基于夜莺搭建统一应用可观测平台,实现智能根因分析与告警治理
引导语
云计算、大数据、人工智能等技术的深度应用,加速推动企业数字化转型和汽车“新四化”发展,各企业正面临从传统制造向智能制造、数智制造的深度变革。
传统IT/OT监控体系已无法适配云原生架构需求,青山工业直面混合架构、告警混乱、工具碎片化等监控痛点,基于开源夜莺打造统一应用可观测平台,实现指标、日志、链路全域采集分析,初步建成应用可观测能力,为IT同行提供落地参考。
企业背景
青山工业系中国长安汽车集团有限公司所属企业,专注于新汽车动力系统领域的研发、生产和销售。在公司数字化转型过程中,原有监控体系问题日益凸显,难以保障研发、生产等业务连续性,严重制约数字化转型工作推进,可观测能力建设主要面临以下挑战:
- 混合架构复杂性:IT架构呈现“OT+IT+云原生”深度融合的特征,既有PLC、机器人、等OT设备,又有生产排程等传统IT系统,同时还有云原生应用,多架构并存导致监控维度分散、技术栈复杂。
- 监控工具碎片化,管理成本高:企业前期引入Zabbix、Prometheus等多款监控工具,不同工具的仪表盘和告警策略需单独配置,存在大量重复工作,管理维护成本偏高。
- 告警体系混乱引发告警风暴:告警通知方式繁杂(企业微信、短信、邮件、电话等),未建立有效的告警收敛与分级机制,非核心告警与核心告警无差别推送,频繁出现告警风暴。
- 故障处置效率低下:故障发现、定位、止损各个环节缺乏统一工具,依赖工程师个人能力和经验,故障应急处置效率难以匹配业务需求。
需求分析
结合公司架构现状和监控痛点,梳理出应用可观测平台的四大核心需求:
- 统一监控数据采集:迫切需要统一采集工具,一个工具即可采集IT系统、应用等监控数据,同时覆盖指标、日志数据,减少多采集器的维护成本。实现多源数据的关联融合,为故障根因分析提供数据支撑。
- 智能根因分析,提升故障处置效率:结合人工智能技术,对多源监控数据进行聚合关联分析,实现故障的智能根因研判,大幅降低人工分析时间。
- 统一告警与分级收敛:构建标准化、可配置的统一告警体系,实现告警的分级、分类、抑制与自愈;根据故障影响范围和严重程度匹配不同的通知方式和处置流程,从根源上解决告警风暴问题。
- 统一可视化仪表盘:打造一站式的可视化监控大屏,将指标、日志、链路三类关键数据密切关联,实现端到端的系统运行全貌展示;支持按研发、运维、生产等不同角色定制化仪表盘,满足各业务部门的监控需求。
可观测平台产品选型
团队围绕“统一化、智能化、轻量化”建设目标,对主流开源监控产品进行调研,重点对比Zabbix+Prometheus、Grafana全家桶、开源夜莺三个方案,如下表:
| 评估维度 | Zabbix+Prometheus | Grafana全家桶 | 开源夜莺 |
|---|---|---|---|
| 采集器 | 碎片化, 无统一采集器, 需单独部署 | 模块化部署 | All-in-One: 统一采集指标、日志 |
| 数据联合分析 | 跨工具分析需二次开发, 无法联动查询 | 基础联动, 无智能关联能力 | 深度联动, 支持指标钻取日志、日志关联链路 |
| 可视化能力 | 可视化面板灵活性低 | 可视化能力丰富 | 灵活可视化 |
| 扩展能力 | 弱 | 强, 模块化但扩展配置复杂 | 强, 分布式云原生架构, 支持多云架构 |
| 告警管理能力 | 规则简单, 无抑制/自愈能力, 配置繁琐 | 规则分散, 无统一管理 | 原生支持分级/抑制等 |
| 运维维护成本 | 高, 多工具独立维护, 重复工作多 | 中, 配置灵活但复杂度高, 学习成本高 | 低, 一体化架构, 减少重复配置 |
| IT/OT融合适配性 | 弱, 仅采 IT 基础指标 | 可通过插件对接 OT 设备, 需二次开发实现 | 采集器支持工业协议, IT/OT 数据统一接入 |
基于上述维度对比,结合混合架构现状、可观测需求和智能运维需求,团队最终选择夜莺作为应用可观测平台的核心技术底座。

实践分享:OpenClaw+Nightingale融合,实现故障智能根因研判
面临访问MES系统卡顿、AGV调度页面报错等系统故障场景,运维人员需要从海量指标、日志中人工排查根因,效率低,经常需要熬夜处理突发故障,影响生产连续性。
解决思路
围绕故障处置效率要求高、人工分析成本高的痛点,团队将夜莺平台接入openclaw,打造AI 故障分析能力,实现对指标、日志、链路等多源数据的聚合关联分析。
1.配置监控端点
在OpenClaw配置中添加监控相关的端点配置:
{
"gateway": {
"monitoring": {
"enabled": true,
"exporters": [
{
"type": "nightingale",
"endpoint": "https://your-nightingale-server",
"interval": "30s"
}
]
}
}
}
2.配置夜莺MCP
"mcp": {
"nightingale_read": {
"type": "local",
"command": [
"npx", "-y", "@n9e/n9e-mcp-server", "stdio",
"--toolsets", "alerts",
"--toolsets", "targets",
"--toolsets", "datasource",
"--toolsets", "mutes",
"--toolsets", "notify_rules",
"--toolsets", "alert_subscribes",
"--toolsets", "event_pipelines",
"--toolsets", "users"
],
"enabled": true,
"timeout": 20000,
"environment": {
"N9E_BASE_URL": "https://your-nightingale-server", # 夜莺访问地址
"N9E_TOKEN": "your-nightingale-token",
"N9E_READ_ONLY": "true" # 只读模式
}
}
}
3.创建监控技能
在技能Skills目录下创建收集web应用运行状态、数据联动分析等脚本,包括:会话数量、响应时间、错误率、内存使用等指标。
D:\xxxx\openclaw\skills\mes-monitor\
├── SKILL.md # 详细的使用文档和API参考
├── mes_monitor.py # 主要的监控脚本
├── requirements.txt # Python依赖包
└── install.sh # 安装脚本
基于夜莺MCP协议的实时数据采集,对MES系统API端点进行实时监控,如P95/P99等响应时间。
---
name: mesmonitor
description: "基于夜莺MCP和openclaw进行监控数据联通。"
license: MIT
compatibility: XXX
metadata:
audience: 二线运维
workflow: 采集数据管理/数据联合分析/事件响应
side_effect: read_only_by_default
token_policy: summary_first
version: 1.0.0
---
# Nightingale
1) 调用 Nightingale Skills #涉及核心指标,不便公开
2) 返回最终结论: 分类返回min/max/p95/p99等数据
# 初始化
mes-monitor init --mcp-url ws://nightingale-mcp:port --token your-token
# 添加MES端点
mes-monitor add-endpoint --name "MES-API-Health" --url http://xxxx/api/health --expected-time 1000 --error-threshold 5.0
实践价值
通过AI工具研判,实现故障的快速定位,根因分析准确率达到90% 以上,系统故障平均解决时间MTTR降低60%,有效保障了生产连续性。
实践二:搭建高效告警体系,从根源解决告警风暴
基于夜莺的原生告警能力,围绕“告警分级+告警收敛+联动升级”等方面进行告警优化,解决告警风暴问题,实现告警的精准推送和故障的闭环处置。
解决思路
1.告警分级
根据故障对生产的影响程度,将告警分为三个等级,各等级对应明确的处置要求。
- Warning(警告):非核心系统出现轻微异常,不影响生产,仅起简单通知作用;
- Problem(问题):核心系统出现轻微异常,可能影响生产效率,需及时修正;
- Critical(紧急):生产、供应链等核心系统出现严重错误,可能导致线上大面积不可用,需立即处置。
2.故障分级与事件单联动
建立故障分级机制,并与事件单系统联动,实现故障的标准化处置。
- 事件单:对应Warning,由运维人员日常排查,通过企业微信通知;
- 问题单:对应Problem,事件单未及时处理自动升级,或直接由Problem告警触发,通知开发+运维人员,通过短信推送;
- 故障单:对应Critical,问题单未及时处理自动升级,或直接由Critical告警触发,影响生产核心环节,通过电话+拉群+短信多方式推送。
3.告警收敛
基于夜莺的原生能力,配置多维度告警收敛规则,避免无效告警干扰。针对高级别告警抑制低级别告警,如磁盘利用率95%的Critical告警触发后,85% 的Problem告警自动屏蔽;对设备维护、系统升级等场景,提前屏蔽相关告警,减少已知告警干扰。
实践价值
实现告警的精准推送和分级处置,告警风暴问题彻底解决,无效告警减少 95%;核心生产系统的告警响应时间缩短至1分钟。

未来展望
未来将围绕以下两个方向持续优化:
- 强化AIOps能力建设:基于夜莺平台积累的海量监控数据和故障案例,持续优化AI故障分析模型,新增故障预测、容量规划、自动化运维等能力,持续完善预测性运维体系。
- 构建行业可观测标准:沉淀经验,构建高质量可观测监控数据集,包括产线系统监控、供应链协同监控、电驱动产品研发监控等,形成可复制、可推广的汽车零部件行业可观测建设标准。
- 夜莺项目开源地址:https://github.com/ccfos/nightingale