LLM 管理

夜莺 v9 LLM 管理：接入 OpenAI 兼容 / Anthropic Claude / Google Gemini 三类模型，为告警分析、日志排障、智能问答等 AI 能力提供底座。

概述

LLM 管理 = 给夜莺的 AI 能力接大脑。

侧栏路径：AI 配置 → LLM 管理，URL /ai-config/llm-configs。

夜莺 v9 的智能化能力（告警 RCA、日志排障、PromQL 生成、智能问答、Skill 调用等）依赖一个外部 LLM 模型来回答。LLM 管理就是这些外部模型的接入清单，你需要：

在 LLM 提供商那里拿到 API Key 和 API URL；
在夜莺里新建一条 LLM 配置，填入上面两个字段 + 选模型；
（可选）把其中一条设为默认，所有没显式指定模型的 AI 功能都会用它。

支持的提供商类型：

类型	适配协议	常见可对接的服务
OpenAI 兼容	OpenAI Chat Completions 协议	OpenAI 官方、Azure OpenAI、阿里通义 DashScope（兼容模式）、火山豆包、Kimi（Moonshot）、DeepSeek、智谱 GLM、Ollama 本地模型、vLLM 自部署等绝大多数主流 LLM
Anthropic Claude	Anthropic Messages API	Claude 官方、Anthropic API 兼容代理
Google Gemini	Gemini API	Google AI Studio / Vertex AI

绝大多数国产/开源/自部署模型都能走"OpenAI 兼容"通道 — 因为社区已经形成共识，提供 OpenAI 风格的 /v1/chat/completions 接口已经是事实标准。

新建 / 编辑 LLM 配置

点击右上「新建 LLM 配置」打开抽屉：

LLM 新建表单

基础字段

字段	必填	说明
名称	是	列表里看到的辨识名，建议 `<提供商>-<模型>` 风格，例如 `openai-gpt-5.4`、`kimi-coding`
启用	默认开	关闭后该配置不会被任何 AI 功能使用
默认	默认关	整个实例只能有一条默认 LLM。开关打开后未单独指定模型的 Agent / Skill / 智能问答都会自动使用它
描述	否	备注信息
提供商类型	是	选 OpenAI 兼容 / Anthropic Claude / Google Gemini 三类之一
模型	是	模型 ID，直接传给提供商的 `model` 字段，需要和提供商的命名严格一致
API URL	是	LLM 服务的接入根地址，不带 `/chat/completions` 后缀。例如 `https://api.openai.com/v1`、`https://dashscope.aliyuncs.com/compatible-mode/v1`、`http://localhost:11434/v1`（Ollama）
API Key	是	提供商给的密钥，保存后掩码显示

高级设置

点开"高级设置"还有一组可选参数：

LLM 高级设置

字段	说明	何时调整
超时时间（秒）	单次请求的超时上限	默认值通常足够；大上下文/慢模型可以放大到 120-300
跳过 TLS 验证	关闭 SSL 证书校验	仅用于内网/自签证书代理；公网调用务必关闭
代理地址	HTTP 代理，例如 `http://proxy:8080`	夜莺所在环境出不了公网，需要走中转代理时填
自定义请求头	key/value 对的扩展 header	部分代理需要额外的鉴权头（如 `X-Tenant-Id`、`Helicone-Auth`）
自定义参数（JSON）	透传给底层 API 的额外参数	例如 `{"top_p": 0.9, "presence_penalty": 0.1}`，或一些供应商特有参数（如阿里 DashScope 的 `enable_search`）
随机程度 Temperature	0~2，越大越发散	告警分析/故障定位建议 0.2~0.5（更确定），自由问答可设 0.7
最大 Tokens	单次回复的最大 Token 数	默认通常足够；想让回复更长可调到 4096+
上下文长度	模型支持的总上下文窗口	影响夜莺一次能塞多少诊断数据给模型，按你选的模型实际能力填（如 GPT-4o 128k）

保存前测试连接

抽屉底部有三个按钮：取消 / 测试连接 / 保存。

强烈建议先点测试连接：夜莺会用当前表单内容发一个最小化请求到 LLM 服务，验证 URL/Key/模型都对。看到 连接成功 再点保存 — 否则配置入库后才发现错误就只能回来编辑。

第三方平台获取 API Key

下表给出主流提供商的 API Key 入口、对接 URL 以及关闭思考（thinking）模式的参数 — 思考模式会让模型先输出推理过程再回答，对告警 RCA / 故障定位等"要快、要准、不要长篇大论"的场景往往是负担，可以在「高级设置 → 自定义参数（JSON）」里关掉。

平台	后台入口	推荐 API URL	关闭 thinking（写入「自定义参数」）	备注
OpenAI	platform.openai.com/api-keys	`https://api.openai.com/v1`	GPT-5 系列：`{"reasoning":{"effort":"minimal"}}`；GPT-5.1 系列：`{"reasoning":{"effort":"none"}}`；GPT-4o / 4.1 系列本身无 thinking	国内需走代理
Azure OpenAI	Azure Portal → 你的 OpenAI 资源 → Keys and Endpoint	`https://<resource>.openai.azure.com/openai/deployments/<deployment>` + 加 `api-version` 自定义参数	同 OpenAI（按部署的模型版本而定）	URL 含部署名
阿里通义 DashScope	dashscope.console.aliyun.com/api-key	`https://dashscope.aliyuncs.com/compatible-mode/v1`	`{"enable_thinking":false}`（Qwen3+ 混合思考模型，如 `qwen3.6-plus`、`qwen3-plus`）；纯思考模型如 `qwen3-235b-a22b-thinking-2507` 不可关	选"OpenAI 兼容"；提示词加 `/no_think` 也能动态关
火山方舟（豆包）	console.volcengine.com/ark	`https://ark.cn-beijing.volces.com/api/v3`	`{"thinking":{"type":"disabled"}}`（`doubao-seed-1.6/1.8` 混合思考模型，三个值：`enabled` / `disabled` / `auto`）；`doubao-seed-1.6-thinking` 等专用思考模型不可关	模型填 endpoint id，形如 `ep-xxx`
Moonshot Kimi	platform.moonshot.cn/console/api-keys	`https://api.moonshot.cn/v1`	`{"thinking":{"type":"disabled"}}`（`kimi-k2.5` / `kimi-k2.6`）；`kimi-k2-thinking` 始终思考不可关	—
DeepSeek	platform.deepseek.com/api_keys	`https://api.deepseek.com/v1`	切换模型即可：`deepseek-chat`（V3，非思考）；新版 `deepseek-v4-pro/flash` 用 `{"enable_thinking":false}`	`deepseek-reasoner` 思考默认开启，无法关闭
智谱 GLM	open.bigmodel.cn	`https://open.bigmodel.cn/api/paas/v4`	`{"thinking":{"type":"disabled"}}` 或 `{"enable_thinking":false}`（GLM-4.5+ 思考模型，默认开）	`glm-4-plus` / `glm-4-flash` 等非思考模型无需配置
Ollama 本地	无（启动 `ollama serve`）	`http://localhost:11434/v1`	思考模型（如 `deepseek-r1`、`qwq`）：`{"think":false}`	API Key 填任意非空字符串；模型填 `ollama list` 看到的名字
Anthropic Claude	console.anthropic.com/settings/keys	`https://api.anthropic.com`	`{"thinking":{"type":"disabled"}}`（Sonnet 4.6 / Opus 4.6 等手动模式）；Opus 4.7 必须用 `{"thinking":{"type":"adaptive"}}` 不能 `disabled`	提供商类型选"Anthropic Claude"，不是 OpenAI 兼容
Google Gemini	aistudio.google.com/app/apikey	`https://generativelanguage.googleapis.com`	`{"thinkingConfig":{"thinkingBudget":0}}`（Gemini 2.5 Flash / 3.x Flash）；Gemini 3 也可用 `{"thinkingLevel":"minimal"}`；Pro 系列不能完全关	提供商类型选"Google Gemini"

把 Key 当密码看待 — 别提交到 git、别打到日志里。建议用 LLM 后台支持的"配额限额 + IP 白名单"做兜底。

关于 thinking 模式：是否要关并不是非黑即白。告警根因分析、PromQL 生成、日志摘要这类需要稳定输出格式的任务通常关掉更快更省 token；复杂代码生成、深度推理问答则建议开启思考。可以建两条 LLM 配置，一条 thinking 关、一条 thinking 开，按场景在 Skill / Agent 里分别绑定。

常见问题

Q1：如何切换"默认 LLM"？现有的默认能改吗？

A：可以。新建/编辑某条 LLM 配置时打开"默认"开关并保存，该实例下其他配置的"默认"会被自动取消（同时只能有一条默认）。智能问答、Agent 默认对话等没显式指定模型的功能会立刻切到新默认模型。

Q2：测试连接失败该怎么排查？

A：按这个顺序排查：

网络：在夜莺 Server 所在机器上 curl -v <API URL>/chat/completions，看能否到达。出不去公网就在"高级设置 → 代理地址"加代理。
API URL：注意不带 /chat/completions 后缀，只填到 /v1 这一级；某些代理需要带版本号或部署名（Azure OpenAI 必须）。
模型名：模型名要和提供商后台严格一致。OpenAI 是 gpt-5.4，通义是 qwen3.6-plus，Azure 是部署名而不是模型基础名。
API Key：检查是否被截断、首尾是否有空格；Anthropic 的 key 以 sk-ant- 开头，OpenAI 以 sk- 开头。
配额/付费：免费 tier 经常被掐速率或额度不足，到后台看一眼用量。