夜莺 v9 AI：给每个 SRE 配一个 7x24 在线的资深副驾驶

夜莺 v9 AI：7x24 在线的资深 SRE 副驾驶

夜莺 v9 AI 的定位不是单独的聊天机器人，而是嵌入夜莺告警、查询、配置和排障流程中的 SRE Copilot。它把告警事件、规则、机器、数据源、通知模板和团队 Skill 放到同一个工作上下文里，帮助值班人员更快判断告警真假、理解事件原因、创建规则和复用团队经验。

核心要点

面向 on-call 的告警判断：围绕心跳、指标、邻居机器和维护窗口形成证据链，帮助判断告警是否真实。
面向排障的事件分析：解析 PromQL、阈值、持续时间、历史趋势和相关告警，输出可读的事件解读。
面向配置的自然语言入口：支持用一句话创建告警规则、屏蔽规则、通知规则、大盘和自愈脚本。
面向团队经验沉淀的 Skill：内置 19 个 Skill，也支持团队用 Markdown 写自己的排障方法论。
面向企业安全的边界设计：不自主执行、不越权读取、数据不离域，并通过人工确认和风险提示约束高风险动作。

做过 on-call 的人都熟悉这几个瞬间：

半夜被一条告警吵醒，盯着手机想"这到底是真的挂了，还是又误报了"，爬起来开电脑、翻指标、看邻居机器，二十分钟过去，结论是"虚惊一场"。
新接了一个业务，要给上百台机器配一套监控，PromQL、阈值、持续时间、通知规则一项项点，一两个小时就没了。
新人来值班，团队的排障套路全在几个老员工脑子里，文档写了也没人看，真出事还是得喊人。

这些事的共同点是：它们都依赖经验，而经验偏偏是团队里最稀缺、最难复制、最容易随人走的东西。

夜莺 v9 想解决的，正是这件事。它没有把 AI 做成一个孤立的"问答机器人"，而是把它做成了一个懂你这套系统的资深 SRE 副驾驶——它认识系统里所有的告警规则、机器和历史数据，了解你的数据源、常用指标和通知模板，还能复用团队沉淀下来的排障方法论。7x24 在线，随叫随到。

下面我们就从五个最真实的场景，看看这个副驾驶到底能干什么。

一、On-call 告警真假判定：20 分钟 → 2 分钟

收到告警，第一反应永远是"这是真的吗"。

在夜莺 v9 里，你不用再爬起来翻一圈。直接在通知卡片或事件详情页打开 Copilot，问一句 “这条告警是真的吗”，AI 会替你把一个老 SRE 该看的证据全看一遍：

心跳层 —— Redis 心跳时间、延迟了多少秒；
指标层 —— CPU、内存、网络的趋势数据；
邻居层 —— 同业务组里其他机器是什么状态；
屏蔽层 —— 现在是不是在维护窗口里。

然后给你一个有依据的结论，而不是一句空泛的"可能有问题"。原来要二十分钟的判断，现在两分钟就能出结果。

二、告警事件分析：看懂这条告警到底在说什么

确认是真告警之后，下一个问题是"它具体在说什么、该怎么看"。

在事件详情页直接问 AI，它会帮你把这条告警事件的来龙去脉讲清楚：解析告警规则的定义（PromQL、阈值、持续时间到底卡的是哪一条）、拉出涉及指标的历史趋势、看看同时段还有没有相关告警一起冒出来、对照主机的 CPU / IO / 网络数据。

最后给你的不是一堆原始数据，而是一段读得懂的事件解读 + 一条证据链 + 下一步该看哪里的建议。新人碰到一条陌生告警不再发懵，老手也省去了反复翻规则、翻指标的功夫。

三、新业务监控体系搭建：一句话 → 一条规则

搭监控这件事，繁琐但不难，最适合交给 AI。

你只需要用大白话描述需求，比如：

给所有生产环境（label env=prod）的主机加一条 CPU 使用率 > 90% 的二级告警。

AI 会自动完成：选定业务组和标签筛选条件 → 生成对应的 PromQL → 配好阈值、时间窗、告警级别 → 关联通知规则 → 直接把规则创建出来。

原来要一两个小时一项项点的活，现在十五分钟就能搞定。

同样的活，AI 副驾驶接手之后

四、日常零碎运维：把 30 分钟的小事压成 3 分钟

运维日常里有大量"不难但烦"的小任务，最消耗精力。这些 AI 都能接：

改通知模板 —— “给告警卡片加上业务组字段”；
临时屏蔽 —— “屏蔽 host=web01 的所有告警 2 小时”，一句话生成屏蔽规则；
接入新通知平台 —— 给出完整的 Webhook 配置，连签名、headers 这些坑都帮你避开；
排查发送失败 —— 解释错误码，给一份排查 checklist；
查事件、查资源 —— “最近 1 小时的一级告警有哪些”。

每一项原来要 3 到 30 分钟，现在基本三分钟以内就能搞定。

五、写自己的 Skill：把团队的打法装进 AI

这是夜莺 v9 AI 里我个人最看重的一块。

团队最值钱的资产，是资深 SRE 脑子里的排障方法论。但这些经验过去只能靠口口相传、靠拉人、靠新人慢慢踩坑攒出来。夜莺 v9 引入了 Skill 的概念来解决它：

资深 SRE 用 Markdown 把自己的排障套路写成一个 Skill，上传到夜莺。当 AI 遇到匹配的场景时，会自动加载这个 Skill，按既定方法论一步步引导新人。

也就是说，新人遇到问题问 AI，得到的不是泛泛的 GPT 式回答，而是你们团队自己的那套打法。新人从入职到能独立值班，周期能从 2-4 周缩短到 1-2 周。

更省心的是，夜莺 v9 二进制里内置了 19 个开箱即用的 Skill，覆盖一线 SRE 日常 90% 的动作，不写一行也能直接用。它们分成五大类：

分类	Skill	干什么
部署接入	`categraf-deploy-guide`	直接给出 categraf 二进制 / Docker / Windows / K8s 的安装与上报配置
创建配置（自然语言转配置）	`n9e-create-alert-rule`	支持 Prometheus、Loki、ES、ClickHouse、MySQL、PG 等十余种数据源建告警规则
	`n9e-create-alert-mute`	“屏蔽 host=web01 2 小时"式的屏蔽规则
	`n9e-create-alert-subscribe`	按条件筛选并转发告警事件
	`n9e-create-notify-rule`	级别 / 时段 / 通道 / 接收人都明确时的线性建规则
	`n9e-create-dashboard`	给标题、类型、PromQL，生成完整仪表盘配置
	`n9e-modify-task-tpl`	生成 / 修改自愈脚本（磁盘清理、重启服务、reload nginx 等）
通知 Copilot（三层分工）	`n9e-notify-channel-copilot`	钉钉 / 飞书 / 企微 / 邮件 / 短信 / Webhook 的接入配置与发送排障
	`n9e-generate-message-template`	用 Go template 生成各平台专版的消息模板
	`n9e-notify-rule-copilot`	复杂的分级路由：“P1 工作时间钉钉+电话，非工作时间仅电话”
查询（只看数据不改配置）	`n9e-query-alert-events`	查活跃 / 历史告警、看详情、做统计
	`n9e-query-datasource`	查询十余种数据源
	`promql-generator`	自然语言 → PromQL
	`sql-generator`	自然语言 → SQL（MySQL / Doris / ClickHouse / PG）
排障诊断（从现象查问题）	`ops-troubleshooting`	最宽口径的综合排查入口，多步骤定位问题
	`n9e-alert-rule-troubleshoot`	“为什么该报的告警没报出来”
	`n9e-host-health-diagnose`	主机失联综合判断：是真宕机、agent 假死、网络抖动还是在维护
	`n9e-host-onboard-diagnose`	新装 categraf 接入不进来的诊断
	`n9e-recommend-self-heal`	告警半自愈推荐

这些内置 Skill 的作者显示为 system，开箱即用、不可在 Web 端改动——但它们只是起点。

重头戏：写出贴合你自己场景的 Skill

内置的 19 个 Skill 解决的是"人人都会遇到"的通用动作。而一个团队真正的硬核经验，往往藏在那些只有你们才有的场景里：

自研中间件出问题该看哪几个指标、按什么顺序排查；
大促期间的巡检套路和扩容判断标准；
“MySQL 主从延迟"告警在你们这套架构下的标准处理流程；
某次历史故障踩过的坑、事后定下来的应对预案。

这些东西没有任何通用大模型能凭空知道，却恰恰是最该沉淀下来的。在夜莺 v9 里，把它变成一个 AI 会用的 Skill，只要三步：

用 Markdown 写 —— 像写一篇排障 wiki 一样，讲清楚"什么场景、按什么步骤、看什么数据、调用哪个工具”；
写好触发描述 —— AI 靠"用户提问 + Skill 描述"来匹配，关键词写清楚，命中时就自动加载；
上传，立即生效 —— 之后任何人在这个场景问 AI，拿到的都是你们团队自己的打法，而不是泛泛而谈的通用回答。

而且这套机制对用户足够友好：

你写的优先：和内置 Skill 同名时以你的为准，想改默认行为随时能覆盖；
兼容 Anthropic Agent Skills 规范：支持导入导出，团队之间、社区之间可以直接共享 Skill；
越用越厚：每复盘一次故障、每总结一套新套路，就多沉淀一个 Skill —— 团队经验从"人走茶凉"变成"留在系统里持续复利”。

一句话：内置能力决定了夜莺的下限，而你能写出多少贴合自己场景的 Skill，决定了它的上限。

处处可达：AI 嵌在你已经在用的地方

夜莺 v9 没有把 AI 关进一个单独的对话框，而是把它嵌到了你日常操作的每一个入口：

入口	能力
右上角 Nightingale AI 图标	全站对话，自动识别场景
告警事件详情页	触发原因、误报判定
通知模板编辑器	「AI 生成」按钮，自然语言写模板
PromQL 输入框	AI 生成查询语句
SQL / 日志查询框	AI 生成 SQL / LogQL / ES DSL

安全边界：能放心交给它的前提

AI 能干这么多事，前提是它守规矩。夜莺 v9 给 AI 立了几条边界，前三条是写进架构、绕不过去的硬约束：

不自主执行 —— AI 工具箱里根本没有"执行命令"的工具，它只能产出带执行标记的推荐，真正执行得人在前端点确认、再走原有 ibex 链路，架构上它自己跑不了脚本。
不越权读取 —— AI 每次调工具都带着当前登录用户的身份，复用夜莺现成的 RBAC 和业务组隔离，没权限的操作直接被拒，非管理员也只能看到自己业务组的数据。
数据不离域 —— 没有任何中央或第三方中转服务，大模型地址和密钥都是你自己填的，请求由你部署的夜莺直连你配置的 LLM。

另外两条，靠的是内置 Skill 里写死的行为准则加"人工确认"兜底：

不乱给危险命令 —— 内置 Skill 带着一份危险命令黑名单（rm -rf /、mkfs、shutdown 等）要求 AI 拒绝生成，kill -9、systemctl restart 这类则要求先加护栏再给。
有风险的建议会说清风险 —— 这类推荐输出结构固定，结尾必须留一段「误报风险」讲清它可能判断错的情况，遇到 critical 或涉及 root、核心库还会强制降级、提示人工二次确认。

模型自己选：从公网 API 到完全离线

数据隐私是很多企业用 AI 的最大顾虑。夜莺 v9 在这点上把选择权完全交给你——底层用哪个大模型，由你决定：

方式	数据流向	适合谁
OpenAI 公网 API	走公网	标准选项，开箱即用
阿里通义 / 火山豆包	云内传输	云厂商用户
公司内部 LLM 网关	企业内网	数据隐私要求高
本地 Ollama / vLLM	完全离线	最强隐私保护

三步就能上手

接模型（5 分钟） —— 进「AI 配置 → LLM 管理」，填 API URL、API Key、模型名，点「测试连接」验证，设为默认。
试场景（15 分钟） —— 在前面说的五个场景里逐一触发 AI，看看哪些最适合你的团队。
写第一个 Skill（10 分钟） —— 把团队最高频的那个 SOP 数字化成 Skill，让新人立刻受益。

FAQ

Q1：夜莺 v9 AI 和普通 AI 问答有什么区别？ A：普通问答通常只处理文本上下文；夜莺 v9 AI 嵌在告警、规则、查询、通知和 Skill 流程里，可以结合当前用户权限、业务组、数据源和告警事件进行分析。

Q2：AI 会不会自己执行危险命令？ A：不会。本文描述的设计中，AI 工具箱没有自主执行命令的能力，只能给出带执行标记的建议，真正执行需要用户在前端确认，并走原有 ibex 链路。

Q3：企业数据是否必须发到公网模型？ A：不必须。夜莺 v9 支持 OpenAI 公网 API、云厂商模型、公司内部 LLM 网关、本地 Ollama 或 vLLM。模型地址和密钥由用户自己配置，请求由用户部署的夜莺直连目标 LLM。

Q4：内置 Skill 是否能覆盖所有团队场景？ A：不能。内置 19 个 Skill 解决通用动作，团队真正有差异的排障套路仍需要自己写 Skill 沉淀，例如自研中间件、大促巡检、特定数据库复制延迟处理流程等。

写在最后

监控行业聊 AIOps 已经聊了很多年，但不少产品的 AI 还停留在"做几张异常检测的图"。夜莺 v9 想往前走一步：它不替你值班，而是把过去只能靠老员工口口相传的那些经验，沉淀成一个随手能问、人人可用的副驾驶。

夜莺 v9 已经发布 beta 版本，AI 能力默认内置。详细配置见官方文档：

📖 AI 能力总览
🧩 19 个内置 Skill 一览

欢迎下载试用，把你团队的那套打法，也写进夜莺里。

夜莺 v9 AI：给每个 SRE 配一个 7x24 在线的资深副驾驶

核心要点

一、On-call 告警真假判定：20 分钟 → 2 分钟

二、告警事件分析：看懂这条告警到底在说什么

三、新业务监控体系搭建：一句话 → 一条规则

四、日常零碎运维：把 30 分钟的小事压成 3 分钟

五、写自己的 Skill：把团队的打法装进 AI

重头戏：写出贴合你自己场景的 Skill

处处可达：AI 嵌在你已经在用的地方

安全边界：能放心交给它的前提

模型自己选：从公网 API 到完全离线

三步就能上手

FAQ

写在最后

继续看解决方案和产品对比

继续阅读

核心要点

一、On-call 告警真假判定：20 分钟 → 2 分钟

二、告警事件分析：看懂这条告警到底在说什么

三、新业务监控体系搭建：一句话 → 一条规则

四、日常零碎运维：把 30 分钟的小事压成 3 分钟

五、写自己的 Skill：把团队的打法装进 AI

重头戏：写出贴合你自己场景的 Skill

处处可达：AI 嵌在你已经在用的地方

安全边界：能放心交给它的前提

模型自己选：从公网 API 到完全离线

三步就能上手

FAQ

写在最后

相关文章

继续看解决方案和产品对比

继续阅读