夜鶯 v9 LLM 管理:接入 OpenAI 相容 / Anthropic Claude / Google Gemini 三類模型,為告警分析、日誌排障、智慧問答等 AI 能力提供底座。
概述
LLM 管理 = 給夜鶯的 AI 能力接大腦。
側欄路徑:AI 設定 → LLM 管理,URL /ai-config/llm-configs。
夜鶯 v9 的智慧化能力(告警 RCA、日誌排障、PromQL 產生、智慧問答、Skill 呼叫等)依賴一個外部 LLM 模型來回答。LLM 管理就是這些外部模型的接入清單,你需要:
- 在 LLM 提供商那裡拿到 API Key 和 API URL;
- 在夜鶯裡新建一條 LLM 設定,填入上面兩個欄位 + 選模型;
- (可選)把其中一條設為預設,所有沒顯式指定模型的 AI 功能都會用它。
支援的提供商類型:
| 類型 | 適配協定 | 常見可對接的服務 |
|---|---|---|
| OpenAI 相容 | OpenAI Chat Completions 協定 | OpenAI 官方、Azure OpenAI、阿里通義 DashScope(相容模式)、火山豆包、Kimi(Moonshot)、DeepSeek、智譜 GLM、Ollama 本機模型、vLLM 自部署等絕大多數主流 LLM |
| Anthropic Claude | Anthropic Messages API | Claude 官方、Anthropic API 相容代理 |
| Google Gemini | Gemini API | Google AI Studio / Vertex AI |
絕大多數國產/開源/自部署模型都能走「OpenAI 相容」通道 — 因為社群已經形成共識,提供 OpenAI 風格的
/v1/chat/completions介面已經是事實標準。
新建 / 編輯 LLM 設定
點擊右上「新建 LLM 設定」開啟抽屜:

基礎欄位
| 欄位 | 必填 | 說明 |
|---|---|---|
| 名稱 | 是 | 列表裡看到的辨識名,建議 <提供商>-<模型> 風格,例如 openai-gpt-5.4、kimi-coding |
| 啟用 | 預設開 | 關閉後該設定不會被任何 AI 功能使用 |
| 預設 | 預設關 | 整個實例只能有一條預設 LLM。開關開啟後未單獨指定模型的 Agent / Skill / 智慧問答都會自動使用它 |
| 描述 | 否 | 備註資訊 |
| 提供商類型 | 是 | 選 OpenAI 相容 / Anthropic Claude / Google Gemini 三類之一 |
| 模型 | 是 | 模型 ID,直接傳給提供商的 model 欄位,需要和提供商的命名嚴格一致 |
| API URL | 是 | LLM 服務的接入根位址,不帶 /chat/completions 後綴。例如 https://api.openai.com/v1、https://dashscope.aliyuncs.com/compatible-mode/v1、http://localhost:11434/v1(Ollama) |
| API Key | 是 | 提供商給的金鑰,儲存後遮罩顯示 |
進階設定
點開「進階設定」還有一組可選參數:

| 欄位 | 說明 | 何時調整 |
|---|---|---|
| 逾時時間(秒) | 單次請求的逾時上限 | 預設值通常足夠;大上下文/慢模型可以放大到 120-300 |
| 跳過 TLS 驗證 | 關閉 SSL 憑證校驗 | 僅用於內網/自簽憑證代理;公網呼叫務必關閉 |
| 代理位址 | HTTP 代理,例如 http://proxy:8080 |
夜鶯所在環境出不了公網,需要走中轉代理時填 |
| 自訂請求標頭 | key/value 對的擴充 header | 部分代理需要額外的鑑權標頭(如 X-Tenant-Id、Helicone-Auth) |
| 自訂參數(JSON) | 透傳給底層 API 的額外參數 | 例如 {"top_p": 0.9, "presence_penalty": 0.1},或一些供應商特有參數(如阿里 DashScope 的 enable_search) |
| 隨機程度 Temperature | 0~2,越大越發散 | 告警分析/故障定位建議 0.2~0.5(更確定),自由問答可設 0.7 |
| 最大 Tokens | 單次回覆的最大 Token 數 | 預設通常足夠;想讓回覆更長可調到 4096+ |
| 上下文長度 | 模型支援的總上下文視窗 | 影響夜鶯一次能塞多少診斷資料給模型,按你選的模型實際能力填(如 GPT-4o 128k) |
儲存前測試連線
抽屜底部有三個按鈕:取消 / 測試連線 / 儲存。
強烈建議先點測試連線:夜鶯會用目前表單內容發一個最小化請求到 LLM 服務,驗證 URL/Key/模型都對。看到 連線成功 再點儲存 — 否則設定入庫後才發現錯誤就只能回來編輯。
第三方平台取得 API Key
下表給出主流提供商的 API Key 入口、對接 URL 以及關閉思考(thinking)模式的參數 — 思考模式會讓模型先輸出推理過程再回答,對告警 RCA/故障定位等「要快、要準、不要長篇大論」的場景往往是負擔,可以在「進階設定 → 自訂參數(JSON)」裡關掉。
| 平台 | 後台入口 | 推薦 API URL | 關閉 thinking(寫入「自訂參數」) | 備註 |
|---|---|---|---|---|
| OpenAI | platform.openai.com/api-keys | https://api.openai.com/v1 |
GPT-5 系列:{"reasoning":{"effort":"minimal"}};GPT-5.1 系列:{"reasoning":{"effort":"none"}};GPT-4o / 4.1 系列本身無 thinking |
國內需走代理 |
| Azure OpenAI | Azure Portal → 你的 OpenAI 資源 → Keys and Endpoint | https://<resource>.openai.azure.com/openai/deployments/<deployment> + 加 api-version 自訂參數 |
同 OpenAI(按部署的模型版本而定) | URL 含部署名 |
| 阿里通義 DashScope | dashscope.console.aliyun.com/api-key | https://dashscope.aliyuncs.com/compatible-mode/v1 |
{"enable_thinking":false}(Qwen3+ 混合思考模型,如 qwen3.6-plus、qwen3-plus);純思考模型如 qwen3-235b-a22b-thinking-2507 不可關 |
選「OpenAI 相容」;提示詞加 /no_think 也能動態關 |
| 火山方舟(豆包) | console.volcengine.com/ark | https://ark.cn-beijing.volces.com/api/v3 |
{"thinking":{"type":"disabled"}}(doubao-seed-1.6/1.8 混合思考模型,三個值:enabled / disabled / auto);doubao-seed-1.6-thinking 等專用思考模型不可關 |
模型填 endpoint id,形如 ep-xxx |
| Moonshot Kimi | platform.moonshot.cn/console/api-keys | https://api.moonshot.cn/v1 |
{"thinking":{"type":"disabled"}}(kimi-k2.5 / kimi-k2.6);kimi-k2-thinking 始終思考不可關 |
— |
| DeepSeek | platform.deepseek.com/api_keys | https://api.deepseek.com/v1 |
切換模型即可:deepseek-chat(V3,非思考);新版 deepseek-v4-pro/flash 用 {"enable_thinking":false} |
deepseek-reasoner 思考預設開啟,無法關閉 |
| 智譜 GLM | open.bigmodel.cn | https://open.bigmodel.cn/api/paas/v4 |
{"thinking":{"type":"disabled"}} 或 {"enable_thinking":false}(GLM-4.5+ 思考模型,預設開) |
glm-4-plus / glm-4-flash 等非思考模型無需設定 |
| Ollama 本機 | 無(啟動 ollama serve) |
http://localhost:11434/v1 |
思考模型(如 deepseek-r1、qwq):{"think":false} |
API Key 填任意非空字串;模型填 ollama list 看到的名字 |
| Anthropic Claude | console.anthropic.com/settings/keys | https://api.anthropic.com |
{"thinking":{"type":"disabled"}}(Sonnet 4.6 / Opus 4.6 等手動模式);Opus 4.7 必須用 {"thinking":{"type":"adaptive"}} 不能 disabled |
提供商類型選「Anthropic Claude」,不是 OpenAI 相容 |
| Google Gemini | aistudio.google.com/app/apikey | https://generativelanguage.googleapis.com |
{"thinkingConfig":{"thinkingBudget":0}}(Gemini 2.5 Flash / 3.x Flash);Gemini 3 也可用 {"thinkingLevel":"minimal"};Pro 系列不能完全關 |
提供商類型選「Google Gemini」 |
把 Key 當密碼看待 — 別提交到 git、別打到日誌裡。建議用 LLM 後台支援的「配額限額 + IP 白名單」做兜底。
關於 thinking 模式:是否要關並不是非黑即白。告警根因分析、PromQL 產生、日誌摘要這類需要穩定輸出格式的任務通常關掉更快更省 token;複雜程式碼產生、深度推理問答則建議開啟思考。可以建兩條 LLM 設定,一條 thinking 關、一條 thinking 開,按場景在 Skill / Agent 裡分別綁定。
常見問題
Q1:如何切換「預設 LLM」?現有的預設能改嗎?
A:可以。新建/編輯某條 LLM 設定時開啟「預設」開關並儲存,該實例下其他設定的「預設」會被自動取消(同時只能有一條預設)。智慧問答、Agent 預設對話等沒顯式指定模型的功能會立刻切到新預設模型。
Q2:測試連線失敗該怎麼排查?
A:按這個順序排查:
- 網路:在夜鶯 Server 所在機器上
curl -v <API URL>/chat/completions,看能否到達。出不去公網就在「進階設定 → 代理位址」加代理。 - API URL:注意不帶
/chat/completions後綴,只填到/v1這一級;某些代理需要帶版本號或部署名(Azure OpenAI 必須)。 - 模型名:模型名要和提供商後台嚴格一致。OpenAI 是
gpt-5.4,通義是qwen3.6-plus,Azure 是部署名而不是模型基礎名。 - API Key:檢查是否被截斷、首尾是否有空格;Anthropic 的 key 以
sk-ant-開頭,OpenAI 以sk-開頭。 - 配額/付費:免費 tier 經常被掐速率或額度不足,到後台看一眼用量。
Q3:為什麼我的 LLM 設定刪除按鈕是灰的?
A:「啟用」開關開啟的狀態下不允許刪除(避免誤刪後 AI 功能集體不可用)。先把 Switch 關掉,再刪。
Q4:自訂參數(JSON)能用來做什麼?
A:透傳到底層 API。比如:
- OpenAI 加
{"top_p": 0.9, "presence_penalty": 0.2}調節多樣性; - DashScope 加
{"enable_search": true}讓模型聯網檢索; - 強制結構化輸出
{"response_format": {"type": "json_object"}}; - vLLM/OpenAI 相容 server 的自訂參數
{"guided_choice": ["positive", "negative"]}。
填合法的 JSON,否則儲存會校驗失敗。