夜莺 v9 AI:给每个 SRE 配一个 7x24 在线的资深副驾驶

夜莺 v9 把团队最资深 SRE 的经验装进了系统:告警真假判定从 20 分钟缩到 2 分钟、告警事件分析、自然语言一句话搭起监控、19 个开箱即用 Skill 还能写出贴合自己场景的 Skill,而且数据可以完全不离域。本文系统介绍夜莺 v9 的 AI 能力、五大场景与安全边界。

作者 夜莺 Team

夜莺 v9 AI:7x24 在线的资深 SRE 副驾驶

做过 on-call 的人都熟悉这几个瞬间:

  • 半夜被一条告警吵醒,盯着手机想"这到底是真的挂了,还是又误报了",爬起来开电脑、翻指标、看邻居机器,二十分钟过去,结论是"虚惊一场"。
  • 新接了一个业务,要给上百台机器配一套监控,PromQL、阈值、持续时间、通知规则一项项点,一两个小时就没了。
  • 新人来值班,团队的排障套路全在几个老员工脑子里,文档写了也没人看,真出事还是得喊人。

这些事的共同点是:它们都依赖经验,而经验偏偏是团队里最稀缺、最难复制、最容易随人走的东西。

夜莺 v9 想解决的,正是这件事。它没有把 AI 做成一个孤立的"问答机器人",而是把它做成了一个懂你这套系统的资深 SRE 副驾驶——它认识系统里所有的告警规则、机器和历史数据,了解你的数据源、常用指标和通知模板,还能复用团队沉淀下来的排障方法论。7x24 在线,随叫随到。

下面我们就从五个最真实的场景,看看这个副驾驶到底能干什么。

一、On-call 告警真假判定:20 分钟 → 2 分钟

收到告警,第一反应永远是"这是真的吗"。

在夜莺 v9 里,你不用再爬起来翻一圈。直接在通知卡片或事件详情页打开 Copilot,问一句 “这条告警是真的吗”,AI 会替你把一个老 SRE 该看的证据全看一遍:

  • 心跳层 —— Redis 心跳时间、延迟了多少秒;
  • 指标层 —— CPU、内存、网络的趋势数据;
  • 邻居层 —— 同业务组里其他机器是什么状态;
  • 屏蔽层 —— 现在是不是在维护窗口里。

然后给你一个有依据的结论,而不是一句空泛的"可能有问题"。原来要二十分钟的判断,现在两分钟就能出结果。

二、告警事件分析:看懂这条告警到底在说什么

确认是真告警之后,下一个问题是"它具体在说什么、该怎么看"。

在事件详情页直接问 AI,它会帮你把这条告警事件的来龙去脉讲清楚:解析告警规则的定义(PromQL、阈值、持续时间到底卡的是哪一条)、拉出涉及指标的历史趋势、看看同时段还有没有相关告警一起冒出来、对照主机的 CPU / IO / 网络数据。

最后给你的不是一堆原始数据,而是一段读得懂的事件解读 + 一条证据链 + 下一步该看哪里的建议。新人碰到一条陌生告警不再发懵,老手也省去了反复翻规则、翻指标的功夫。

三、新业务监控体系搭建:一句话 → 一条规则

搭监控这件事,繁琐但不难,最适合交给 AI。

你只需要用大白话描述需求,比如:

给所有生产环境(label env=prod)的主机加一条 CPU 使用率 > 90% 的二级告警。

AI 会自动完成:选定业务组和标签筛选条件 → 生成对应的 PromQL → 配好阈值、时间窗、告警级别 → 关联通知规则 → 直接把规则创建出来。

原来要一两个小时一项项点的活,现在十五分钟就能搞定。

同样的活,AI 副驾驶接手之后

四、日常零碎运维:把 30 分钟的小事压成 3 分钟

运维日常里有大量"不难但烦"的小任务,最消耗精力。这些 AI 都能接:

  • 改通知模板 —— “给告警卡片加上业务组字段”;
  • 临时屏蔽 —— “屏蔽 host=web01 的所有告警 2 小时”,一句话生成屏蔽规则;
  • 接入新通知平台 —— 给出完整的 Webhook 配置,连签名、headers 这些坑都帮你避开;
  • 排查发送失败 —— 解释错误码,给一份排查 checklist;
  • 查事件、查资源 —— “最近 1 小时的一级告警有哪些”。

每一项原来要 3 到 30 分钟,现在基本三分钟以内就能搞定。

五、写自己的 Skill:把团队的打法装进 AI

这是夜莺 v9 AI 里我个人最看重的一块。

团队最值钱的资产,是资深 SRE 脑子里的排障方法论。但这些经验过去只能靠口口相传、靠拉人、靠新人慢慢踩坑攒出来。夜莺 v9 引入了 Skill 的概念来解决它:

资深 SRE 用 Markdown 把自己的排障套路写成一个 Skill,上传到夜莺。当 AI 遇到匹配的场景时,会自动加载这个 Skill,按既定方法论一步步引导新人

也就是说,新人遇到问题问 AI,得到的不是泛泛的 GPT 式回答,而是你们团队自己的那套打法。新人从入职到能独立值班,周期能从 2-4 周缩短到 1-2 周。

更省心的是,夜莺 v9 二进制里内置了 19 个开箱即用的 Skill,覆盖一线 SRE 日常 90% 的动作,不写一行也能直接用。它们分成五大类:

分类 Skill 干什么
部署接入 categraf-deploy-guide 直接给出 categraf 二进制 / Docker / Windows / K8s 的安装与上报配置
创建配置(自然语言转配置) n9e-create-alert-rule 支持 Prometheus、Loki、ES、ClickHouse、MySQL、PG 等十余种数据源建告警规则
n9e-create-alert-mute “屏蔽 host=web01 2 小时"式的屏蔽规则
n9e-create-alert-subscribe 按条件筛选并转发告警事件
n9e-create-notify-rule 级别 / 时段 / 通道 / 接收人都明确时的线性建规则
n9e-create-dashboard 给标题、类型、PromQL,生成完整仪表盘配置
n9e-modify-task-tpl 生成 / 修改自愈脚本(磁盘清理、重启服务、reload nginx 等)
通知 Copilot(三层分工) n9e-notify-channel-copilot 钉钉 / 飞书 / 企微 / 邮件 / 短信 / Webhook 的接入配置与发送排障
n9e-generate-message-template 用 Go template 生成各平台专版的消息模板
n9e-notify-rule-copilot 复杂的分级路由:“P1 工作时间钉钉+电话,非工作时间仅电话”
查询(只看数据不改配置) n9e-query-alert-events 查活跃 / 历史告警、看详情、做统计
n9e-query-datasource 查询十余种数据源
promql-generator 自然语言 → PromQL
sql-generator 自然语言 → SQL(MySQL / Doris / ClickHouse / PG)
排障诊断(从现象查问题) ops-troubleshooting 最宽口径的综合排查入口,多步骤定位问题
n9e-alert-rule-troubleshoot “为什么该报的告警没报出来”
n9e-host-health-diagnose 主机失联综合判断:是真宕机、agent 假死、网络抖动还是在维护
n9e-host-onboard-diagnose 新装 categraf 接入不进来的诊断
n9e-recommend-self-heal 告警半自愈推荐

这些内置 Skill 的作者显示为 system,开箱即用、不可在 Web 端改动——但它们只是起点

重头戏:写出贴合你自己场景的 Skill

内置的 19 个 Skill 解决的是"人人都会遇到"的通用动作。而一个团队真正的硬核经验,往往藏在那些只有你们才有的场景里:

  • 自研中间件出问题该看哪几个指标、按什么顺序排查;
  • 大促期间的巡检套路和扩容判断标准;
  • “MySQL 主从延迟"告警在你们这套架构下的标准处理流程;
  • 某次历史故障踩过的坑、事后定下来的应对预案。

这些东西没有任何通用大模型能凭空知道,却恰恰是最该沉淀下来的。在夜莺 v9 里,把它变成一个 AI 会用的 Skill,只要三步:

  1. 用 Markdown 写 —— 像写一篇排障 wiki 一样,讲清楚"什么场景、按什么步骤、看什么数据、调用哪个工具”;
  2. 写好触发描述 —— AI 靠"用户提问 + Skill 描述"来匹配,关键词写清楚,命中时就自动加载;
  3. 上传,立即生效 —— 之后任何人在这个场景问 AI,拿到的都是你们团队自己的打法,而不是泛泛而谈的通用回答。

而且这套机制对用户足够友好:

  • 你写的优先:和内置 Skill 同名时以你的为准,想改默认行为随时能覆盖;
  • 兼容 Anthropic Agent Skills 规范:支持导入导出,团队之间、社区之间可以直接共享 Skill;
  • 越用越厚:每复盘一次故障、每总结一套新套路,就多沉淀一个 Skill —— 团队经验从"人走茶凉"变成"留在系统里持续复利”。

一句话:内置能力决定了夜莺的下限,而你能写出多少贴合自己场景的 Skill,决定了它的上限。

处处可达:AI 嵌在你已经在用的地方

夜莺 v9 没有把 AI 关进一个单独的对话框,而是把它嵌到了你日常操作的每一个入口:

入口 能力
右上角 Nightingale AI 图标 全站对话,自动识别场景
告警事件详情页 触发原因、误报判定
通知模板编辑器 「AI 生成」按钮,自然语言写模板
PromQL 输入框 AI 生成查询语句
SQL / 日志查询框 AI 生成 SQL / LogQL / ES DSL

安全边界:能放心交给它的前提

AI 能干这么多事,前提是它守规矩。夜莺 v9 给 AI 立了几条边界,前三条是写进架构、绕不过去的硬约束:

  • 不自主执行 —— AI 工具箱里根本没有"执行命令"的工具,它只能产出带执行标记的推荐,真正执行得人在前端点确认、再走原有 ibex 链路,架构上它自己跑不了脚本。
  • 不越权读取 —— AI 每次调工具都带着当前登录用户的身份,复用夜莺现成的 RBAC 和业务组隔离,没权限的操作直接被拒,非管理员也只能看到自己业务组的数据。
  • 数据不离域 —— 没有任何中央或第三方中转服务,大模型地址和密钥都是你自己填的,请求由你部署的夜莺直连你配置的 LLM。

另外两条,靠的是内置 Skill 里写死的行为准则加"人工确认"兜底:

  • 不乱给危险命令 —— 内置 Skill 带着一份危险命令黑名单(rm -rf /mkfsshutdown 等)要求 AI 拒绝生成,kill -9systemctl restart 这类则要求先加护栏再给。
  • 有风险的建议会说清风险 —— 这类推荐输出结构固定,结尾必须留一段「误报风险」讲清它可能判断错的情况,遇到 critical 或涉及 root、核心库还会强制降级、提示人工二次确认。

模型自己选:从公网 API 到完全离线

数据隐私是很多企业用 AI 的最大顾虑。夜莺 v9 在这点上把选择权完全交给你——底层用哪个大模型,由你决定:

方式 数据流向 适合谁
OpenAI 公网 API 走公网 标准选项,开箱即用
阿里通义 / 火山豆包 云内传输 云厂商用户
公司内部 LLM 网关 企业内网 数据隐私要求高
本地 Ollama / vLLM 完全离线 最强隐私保护

三步就能上手

  1. 接模型(5 分钟) —— 进「AI 配置 → LLM 管理」,填 API URL、API Key、模型名,点「测试连接」验证,设为默认。
  2. 试场景(15 分钟) —— 在前面说的五个场景里逐一触发 AI,看看哪些最适合你的团队。
  3. 写第一个 Skill(10 分钟) —— 把团队最高频的那个 SOP 数字化成 Skill,让新人立刻受益。

写在最后

监控行业聊 AIOps 已经聊了很多年,但不少产品的 AI 还停留在"做几张异常检测的图"。夜莺 v9 想往前走一步:它不替你值班,而是把过去只能靠老员工口口相传的那些经验,沉淀成一个随手能问、人人可用的副驾驶。

夜莺 v9 已经发布 beta 版本,AI 能力默认内置。详细配置见官方文档:

欢迎下载试用,把你团队的那套打法,也写进夜莺里。

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云