青山工业基于夜莺搭建统一应用可观测平台，实现智能根因分析与告警治理

青山工业 2026-03-20 15:35:17

引导语

云计算、大数据、人工智能等技术的深度应用，加速推动企业数字化转型和汽车“新四化”发展，各企业正面临从传统制造向智能制造、数智制造的深度变革。

传统IT/OT监控体系已无法适配云原生架构需求，青山工业直面混合架构、告警混乱、工具碎片化等监控痛点，基于开源夜莺打造统一应用可观测平台，实现指标、日志、链路全域采集分析，初步建成应用可观测能力，为IT同行提供落地参考。

企业背景

青山工业系中国长安汽车集团有限公司所属企业，专注于新汽车动力系统领域的研发、生产和销售。在公司数字化转型过程中，原有监控体系问题日益凸显，难以保障研发、生产等业务连续性，严重制约数字化转型工作推进，可观测能力建设主要面临以下挑战：

混合架构复杂性：IT架构呈现“OT+IT+云原生”深度融合的特征，既有PLC、机器人、等OT设备，又有生产排程等传统IT系统，同时还有云原生应用，多架构并存导致监控维度分散、技术栈复杂。
监控工具碎片化，管理成本高：企业前期引入Zabbix、Prometheus等多款监控工具，不同工具的仪表盘和告警策略需单独配置，存在大量重复工作，管理维护成本偏高。
告警体系混乱引发告警风暴：告警通知方式繁杂（企业微信、短信、邮件、电话等），未建立有效的告警收敛与分级机制，非核心告警与核心告警无差别推送，频繁出现告警风暴。
故障处置效率低下：故障发现、定位、止损各个环节缺乏统一工具，依赖工程师个人能力和经验，故障应急处置效率难以匹配业务需求。

需求分析

结合公司架构现状和监控痛点，梳理出应用可观测平台的四大核心需求：

统一监控数据采集：迫切需要统一采集工具，一个工具即可采集IT系统、应用等监控数据，同时覆盖指标、日志数据，减少多采集器的维护成本。实现多源数据的关联融合，为故障根因分析提供数据支撑。
智能根因分析，提升故障处置效率：结合人工智能技术，对多源监控数据进行聚合关联分析，实现故障的智能根因研判，大幅降低人工分析时间。
统一告警与分级收敛：构建标准化、可配置的统一告警体系，实现告警的分级、分类、抑制与自愈；根据故障影响范围和严重程度匹配不同的通知方式和处置流程，从根源上解决告警风暴问题。
统一可视化仪表盘：打造一站式的可视化监控大屏，将指标、日志、链路三类关键数据密切关联，实现端到端的系统运行全貌展示；支持按研发、运维、生产等不同角色定制化仪表盘，满足各业务部门的监控需求。

可观测平台产品选型

团队围绕“统一化、智能化、轻量化”建设目标，对主流开源监控产品进行调研，重点对比Zabbix+Prometheus、Grafana全家桶、开源夜莺三个方案，如下表：

评估维度	Zabbix+Prometheus	Grafana全家桶	开源夜莺
采集器	碎片化, 无统一采集器, 需单独部署	模块化部署	All-in-One: 统一采集指标、日志
数据联合分析	跨工具分析需二次开发, 无法联动查询	基础联动, 无智能关联能力	深度联动, 支持指标钻取日志、日志关联链路
可视化能力	可视化面板灵活性低	可视化能力丰富	灵活可视化
扩展能力	弱	强, 模块化但扩展配置复杂	强, 分布式云原生架构, 支持多云架构
告警管理能力	规则简单, 无抑制/自愈能力, 配置繁琐	规则分散, 无统一管理	原生支持分级/抑制等
运维维护成本	高, 多工具独立维护, 重复工作多	中, 配置灵活但复杂度高, 学习成本高	低, 一体化架构, 减少重复配置
IT/OT融合适配性	弱, 仅采 IT 基础指标	可通过插件对接 OT 设备, 需二次开发实现	采集器支持工业协议, IT/OT 数据统一接入

基于上述维度对比，结合混合架构现状、可观测需求和智能运维需求，团队最终选择夜莺作为应用可观测平台的核心技术底座。

实践分享：OpenClaw+Nightingale融合，实现故障智能根因研判

面临访问MES系统卡顿、AGV调度页面报错等系统故障场景，运维人员需要从海量指标、日志中人工排查根因，效率低，经常需要熬夜处理突发故障，影响生产连续性。

解决思路

围绕故障处置效率要求高、人工分析成本高的痛点，团队将夜莺平台接入openclaw，打造AI 故障分析能力，实现对指标、日志、链路等多源数据的聚合关联分析。

1.配置监控端点

在OpenClaw配置中添加监控相关的端点配置：

{
  "gateway": {
    "monitoring": {
      "enabled": true,
      "exporters": [
        {
          "type": "nightingale",
          "endpoint": "https://your-nightingale-server",
          "interval": "30s"
        }
      ]
    }
  }
}

2.配置夜莺MCP

"mcp": {
  "nightingale_read": {
    "type": "local",
    "command": [
      "npx", "-y", "@n9e/n9e-mcp-server", "stdio",
      "--toolsets", "alerts",
      "--toolsets", "targets",
      "--toolsets", "datasource",
      "--toolsets", "mutes",
      "--toolsets", "notify_rules",
      "--toolsets", "alert_subscribes",
      "--toolsets", "event_pipelines",
      "--toolsets", "users"
    ],
    "enabled": true,
    "timeout": 20000,
    "environment": {
      "N9E_BASE_URL": "https://your-nightingale-server",  # 夜莺访问地址
      "N9E_TOKEN": "your-nightingale-token",
      "N9E_READ_ONLY": "true"  # 只读模式
    }
  }
}

3.创建监控技能

在技能Skills目录下创建收集web应用运行状态、数据联动分析等脚本，包括：会话数量、响应时间、错误率、内存使用等指标。

D:\xxxx\openclaw\skills\mes-monitor\
├── SKILL.md           # 详细的使用文档和API参考
├── mes_monitor.py     # 主要的监控脚本
├── requirements.txt   # Python依赖包
└── install.sh         # 安装脚本

基于夜莺MCP协议的实时数据采集，对MES系统API端点进行实时监控，如P95/P99等响应时间。

---
name: mesmonitor
description: "基于夜莺MCP和openclaw进行监控数据联通。"
license: MIT
compatibility: XXX
metadata:
  audience: 二线运维
  workflow: 采集数据管理/数据联合分析/事件响应
  side_effect: read_only_by_default
  token_policy: summary_first
  version: 1.0.0
---
# Nightingale
1) 调用 Nightingale Skills #涉及核心指标，不便公开
2) 返回最终结论： 分类返回min/max/p95/p99等数据


# 初始化
mes-monitor init --mcp-url ws://nightingale-mcp:port --token your-token
# 添加MES端点
mes-monitor add-endpoint --name "MES-API-Health" --url http://xxxx/api/health --expected-time 1000 --error-threshold 5.0

实践价值

通过AI工具研判，实现故障的快速定位，根因分析准确率达到90% 以上，系统故障平均解决时间MTTR降低60%，有效保障了生产连续性。

实践二：搭建高效告警体系，从根源解决告警风暴

基于夜莺的原生告警能力，围绕“告警分级+告警收敛+联动升级”等方面进行告警优化，解决告警风暴问题，实现告警的精准推送和故障的闭环处置。

解决思路

1.告警分级

根据故障对生产的影响程度，将告警分为三个等级，各等级对应明确的处置要求。

Warning（警告）：非核心系统出现轻微异常，不影响生产，仅起简单通知作用；
Problem（问题）：核心系统出现轻微异常，可能影响生产效率，需及时修正；
Critical（紧急）：生产、供应链等核心系统出现严重错误，可能导致线上大面积不可用，需立即处置。

2.故障分级与事件单联动

建立故障分级机制，并与事件单系统联动，实现故障的标准化处置。

事件单：对应Warning，由运维人员日常排查，通过企业微信通知；
问题单：对应Problem，事件单未及时处理自动升级，或直接由Problem告警触发，通知开发+运维人员，通过短信推送；
故障单：对应Critical，问题单未及时处理自动升级，或直接由Critical告警触发，影响生产核心环节，通过电话+拉群+短信多方式推送。

3.告警收敛

基于夜莺的原生能力，配置多维度告警收敛规则，避免无效告警干扰。针对高级别告警抑制低级别告警，如磁盘利用率95%的Critical告警触发后，85% 的Problem告警自动屏蔽；对设备维护、系统升级等场景，提前屏蔽相关告警，减少已知告警干扰。

实践价值

实现告警的精准推送和分级处置，告警风暴问题彻底解决，无效告警减少 95%；核心生产系统的告警响应时间缩短至1分钟。

未来展望

未来将围绕以下两个方向持续优化：

强化AIOps能力建设：基于夜莺平台积累的海量监控数据和故障案例，持续优化AI故障分析模型，新增故障预测、容量规划、自动化运维等能力，持续完善预测性运维体系。
构建行业可观测标准：沉淀经验，构建高质量可观测监控数据集，包括产线系统监控、供应链协同监控、电驱动产品研发监控等，形成可复制、可推广的汽车零部件行业可观测建设标准。