LLM 管理
夜莺 v9 LLM 管理:接入 OpenAI 兼容 / Anthropic Claude / Google Gemini 三类模型,为告警分析、日志排障、智能问答等 AI 能力提供底座。
概述
LLM 管理 = 给夜莺的 AI 能力接大脑。
侧栏路径:AI 配置 → LLM 管理,URL /ai-config/llm-configs。
夜莺 v9 的智能化能力(告警 RCA、日志排障、PromQL 生成、智能问答、Skill 调用等)依赖一个外部 LLM 模型来回答。LLM 管理就是这些外部模型的接入清单,你需要:
- 在 LLM 提供商那里拿到 API Key 和 API URL;
- 在夜莺里新建一条 LLM 配置,填入上面两个字段 + 选模型;
- (可选)把其中一条设为默认,所有没显式指定模型的 AI 功能都会用它。
支持的提供商类型:
| 类型 | 适配协议 | 常见可对接的服务 |
|---|---|---|
| OpenAI 兼容 | OpenAI Chat Completions 协议 | OpenAI 官方、Azure OpenAI、阿里通义 DashScope(兼容模式)、火山豆包、Kimi(Moonshot)、DeepSeek、智谱 GLM、Ollama 本地模型、vLLM 自部署等绝大多数主流 LLM |
| Anthropic Claude | Anthropic Messages API | Claude 官方、Anthropic API 兼容代理 |
| Google Gemini | Gemini API | Google AI Studio / Vertex AI |
绝大多数国产/开源/自部署模型都能走"OpenAI 兼容"通道 — 因为社区已经形成共识,提供 OpenAI 风格的
/v1/chat/completions接口已经是事实标准。
新建 / 编辑 LLM 配置
点击右上「新建 LLM 配置」打开抽屉:

基础字段
| 字段 | 必填 | 说明 |
|---|---|---|
| 名称 | 是 | 列表里看到的辨识名,建议 <提供商>-<模型> 风格,例如 openai-gpt-5.4、kimi-coding |
| 启用 | 默认开 | 关闭后该配置不会被任何 AI 功能使用 |
| 默认 | 默认关 | 整个实例只能有一条默认 LLM。开关打开后未单独指定模型的 Agent / Skill / 智能问答都会自动使用它 |
| 描述 | 否 | 备注信息 |
| 提供商类型 | 是 | 选 OpenAI 兼容 / Anthropic Claude / Google Gemini 三类之一 |
| 模型 | 是 | 模型 ID,直接传给提供商的 model 字段,需要和提供商的命名严格一致 |
| API URL | 是 | LLM 服务的接入根地址,不带 /chat/completions 后缀。例如 https://api.openai.com/v1、https://dashscope.aliyuncs.com/compatible-mode/v1、http://localhost:11434/v1(Ollama) |
| API Key | 是 | 提供商给的密钥,保存后掩码显示 |
高级设置
点开"高级设置"还有一组可选参数:

| 字段 | 说明 | 何时调整 |
|---|---|---|
| 超时时间(秒) | 单次请求的超时上限 | 默认值通常足够;大上下文/慢模型可以放大到 120-300 |
| 跳过 TLS 验证 | 关闭 SSL 证书校验 | 仅用于内网/自签证书代理;公网调用务必关闭 |
| 代理地址 | HTTP 代理,例如 http://proxy:8080 |
夜莺所在环境出不了公网,需要走中转代理时填 |
| 自定义请求头 | key/value 对的扩展 header | 部分代理需要额外的鉴权头(如 X-Tenant-Id、Helicone-Auth) |
| 自定义参数(JSON) | 透传给底层 API 的额外参数 | 例如 {"top_p": 0.9, "presence_penalty": 0.1},或一些供应商特有参数(如阿里 DashScope 的 enable_search) |
| 随机程度 Temperature | 0~2,越大越发散 | 告警分析/故障定位建议 0.2~0.5(更确定),自由问答可设 0.7 |
| 最大 Tokens | 单次回复的最大 Token 数 | 默认通常足够;想让回复更长可调到 4096+ |
| 上下文长度 | 模型支持的总上下文窗口 | 影响夜莺一次能塞多少诊断数据给模型,按你选的模型实际能力填(如 GPT-4o 128k) |
保存前测试连接
抽屉底部有三个按钮:取消 / 测试连接 / 保存。
强烈建议先点测试连接:夜莺会用当前表单内容发一个最小化请求到 LLM 服务,验证 URL/Key/模型都对。看到 连接成功 再点保存 — 否则配置入库后才发现错误就只能回来编辑。
第三方平台获取 API Key
下表给出主流提供商的 API Key 入口、对接 URL 以及关闭思考(thinking)模式的参数 — 思考模式会让模型先输出推理过程再回答,对告警 RCA / 故障定位等"要快、要准、不要长篇大论"的场景往往是负担,可以在「高级设置 → 自定义参数(JSON)」里关掉。
| 平台 | 后台入口 | 推荐 API URL | 关闭 thinking(写入「自定义参数」) | 备注 |
|---|---|---|---|---|
| OpenAI | platform.openai.com/api-keys | https://api.openai.com/v1 |
GPT-5 系列:{"reasoning":{"effort":"minimal"}};GPT-5.1 系列:{"reasoning":{"effort":"none"}};GPT-4o / 4.1 系列本身无 thinking |
国内需走代理 |
| Azure OpenAI | Azure Portal → 你的 OpenAI 资源 → Keys and Endpoint | https://<resource>.openai.azure.com/openai/deployments/<deployment> + 加 api-version 自定义参数 |
同 OpenAI(按部署的模型版本而定) | URL 含部署名 |
| 阿里通义 DashScope | dashscope.console.aliyun.com/api-key | https://dashscope.aliyuncs.com/compatible-mode/v1 |
{"enable_thinking":false}(Qwen3+ 混合思考模型,如 qwen3.6-plus、qwen3-plus);纯思考模型如 qwen3-235b-a22b-thinking-2507 不可关 |
选"OpenAI 兼容";提示词加 /no_think 也能动态关 |
| 火山方舟(豆包) | console.volcengine.com/ark | https://ark.cn-beijing.volces.com/api/v3 |
{"thinking":{"type":"disabled"}}(doubao-seed-1.6/1.8 混合思考模型,三个值:enabled / disabled / auto);doubao-seed-1.6-thinking 等专用思考模型不可关 |
模型填 endpoint id,形如 ep-xxx |
| Moonshot Kimi | platform.moonshot.cn/console/api-keys | https://api.moonshot.cn/v1 |
{"thinking":{"type":"disabled"}}(kimi-k2.5 / kimi-k2.6);kimi-k2-thinking 始终思考不可关 |
— |
| DeepSeek | platform.deepseek.com/api_keys | https://api.deepseek.com/v1 |
切换模型即可:deepseek-chat(V3,非思考);新版 deepseek-v4-pro/flash 用 {"enable_thinking":false} |
deepseek-reasoner 思考默认开启,无法关闭 |
| 智谱 GLM | open.bigmodel.cn | https://open.bigmodel.cn/api/paas/v4 |
{"thinking":{"type":"disabled"}} 或 {"enable_thinking":false}(GLM-4.5+ 思考模型,默认开) |
glm-4-plus / glm-4-flash 等非思考模型无需配置 |
| Ollama 本地 | 无(启动 ollama serve) |
http://localhost:11434/v1 |
思考模型(如 deepseek-r1、qwq):{"think":false} |
API Key 填任意非空字符串;模型填 ollama list 看到的名字 |
| Anthropic Claude | console.anthropic.com/settings/keys | https://api.anthropic.com |
{"thinking":{"type":"disabled"}}(Sonnet 4.6 / Opus 4.6 等手动模式);Opus 4.7 必须用 {"thinking":{"type":"adaptive"}} 不能 disabled |
提供商类型选"Anthropic Claude",不是 OpenAI 兼容 |
| Google Gemini | aistudio.google.com/app/apikey | https://generativelanguage.googleapis.com |
{"thinkingConfig":{"thinkingBudget":0}}(Gemini 2.5 Flash / 3.x Flash);Gemini 3 也可用 {"thinkingLevel":"minimal"};Pro 系列不能完全关 |
提供商类型选"Google Gemini" |
把 Key 当密码看待 — 别提交到 git、别打到日志里。建议用 LLM 后台支持的"配额限额 + IP 白名单"做兜底。
关于 thinking 模式:是否要关并不是非黑即白。告警根因分析、PromQL 生成、日志摘要这类需要稳定输出格式的任务通常关掉更快更省 token;复杂代码生成、深度推理问答则建议开启思考。可以建两条 LLM 配置,一条 thinking 关、一条 thinking 开,按场景在 Skill / Agent 里分别绑定。
常见问题
Q1:如何切换"默认 LLM"?现有的默认能改吗?
A:可以。新建/编辑某条 LLM 配置时打开"默认"开关并保存,该实例下其他配置的"默认"会被自动取消(同时只能有一条默认)。智能问答、Agent 默认对话等没显式指定模型的功能会立刻切到新默认模型。
Q2:测试连接失败该怎么排查?
A:按这个顺序排查:
- 网络:在夜莺 Server 所在机器上
curl -v <API URL>/chat/completions,看能否到达。出不去公网就在"高级设置 → 代理地址"加代理。 - API URL:注意不带
/chat/completions后缀,只填到/v1这一级;某些代理需要带版本号或部署名(Azure OpenAI 必须)。 - 模型名:模型名要和提供商后台严格一致。OpenAI 是
gpt-5.4,通义是qwen3.6-plus,Azure 是部署名而不是模型基础名。 - API Key:检查是否被截断、首尾是否有空格;Anthropic 的 key 以
sk-ant-开头,OpenAI 以sk-开头。 - 配额/付费:免费 tier 经常被掐速率或额度不足,到后台看一眼用量。
Q3:为什么我的 LLM 配置删除按钮是灰的?
A:「启用」开关打开的状态下不允许删除(避免误删后 AI 功能集体不可用)。先把 Switch 关掉,再删。
Q4:自定义参数(JSON)能用来做什么?
A:透传到底层 API。比如:
- OpenAI 加
{"top_p": 0.9, "presence_penalty": 0.2}调节多样性; - DashScope 加
{"enable_search": true}让模型联网检索; - 强制结构化输出
{"response_format": {"type": "json_object"}}; - vLLM/OpenAI 兼容 server 的自定义参数
{"guided_choice": ["positive", "negative"]}。
填合法的 JSON,否则保存会校验失败。