- 快猫星云Flashcat

夜鶯 v9 LLM 管理：接入 OpenAI 相容 / Anthropic Claude / Google Gemini 三類模型，為告警分析、日誌排障、智慧問答等 AI 能力提供底座。

概述

LLM 管理 = 給夜鶯的 AI 能力接大腦。

側欄路徑：AI 設定 → LLM 管理，URL /ai-config/llm-configs。

夜鶯 v9 的智慧化能力（告警 RCA、日誌排障、PromQL 產生、智慧問答、Skill 呼叫等）依賴一個外部 LLM 模型來回答。LLM 管理就是這些外部模型的接入清單，你需要：

在 LLM 提供商那裡拿到 API Key 和 API URL；
在夜鶯裡新建一條 LLM 設定，填入上面兩個欄位 + 選模型；
（可選）把其中一條設為預設，所有沒顯式指定模型的 AI 功能都會用它。

支援的提供商類型：

類型	適配協定	常見可對接的服務
OpenAI 相容	OpenAI Chat Completions 協定	OpenAI 官方、Azure OpenAI、阿里通義 DashScope（相容模式）、火山豆包、Kimi（Moonshot）、DeepSeek、智譜 GLM、Ollama 本機模型、vLLM 自部署等絕大多數主流 LLM
Anthropic Claude	Anthropic Messages API	Claude 官方、Anthropic API 相容代理
Google Gemini	Gemini API	Google AI Studio / Vertex AI

絕大多數國產／開源／自部署模型都能走「OpenAI 相容」通道 — 因為社群已經形成共識，提供 OpenAI 風格的 /v1/chat/completions 介面已經是事實標準。

新建 / 編輯 LLM 設定

點擊右上「新建 LLM 設定」開啟抽屜：

LLM 新建表單

基礎欄位

欄位	必填	說明
名稱	是	列表裡看到的辨識名，建議 `<提供商>-<模型>` 風格，例如 `openai-gpt-5.4`、`kimi-coding`
啟用	預設開	關閉後該設定不會被任何 AI 功能使用
預設	預設關	整個實例只能有一條預設 LLM。開關開啟後未單獨指定模型的 Agent / Skill / 智慧問答都會自動使用它
描述	否	備註資訊
提供商類型	是	選 OpenAI 相容 / Anthropic Claude / Google Gemini 三類之一
模型	是	模型 ID，直接傳給提供商的 `model` 欄位，需要和提供商的命名嚴格一致
API URL	是	LLM 服務的接入根位址，不帶 `/chat/completions` 後綴。例如 `https://api.openai.com/v1`、`https://dashscope.aliyuncs.com/compatible-mode/v1`、`http://localhost:11434/v1`（Ollama）
API Key	是	提供商給的金鑰，儲存後遮罩顯示

進階設定

點開「進階設定」還有一組可選參數：

LLM 進階設定

欄位	說明	何時調整
逾時時間（秒）	單次請求的逾時上限	預設值通常足夠；大上下文／慢模型可以放大到 120-300
跳過 TLS 驗證	關閉 SSL 憑證校驗	僅用於內網／自簽憑證代理；公網呼叫務必關閉
代理位址	HTTP 代理，例如 `http://proxy:8080`	夜鶯所在環境出不了公網，需要走中轉代理時填
自訂請求標頭	key/value 對的擴充 header	部分代理需要額外的鑑權標頭（如 `X-Tenant-Id`、`Helicone-Auth`）
自訂參數（JSON）	透傳給底層 API 的額外參數	例如 `{"top_p": 0.9, "presence_penalty": 0.1}`，或一些供應商特有參數（如阿里 DashScope 的 `enable_search`）
隨機程度 Temperature	0~2，越大越發散	告警分析／故障定位建議 0.2~0.5（更確定），自由問答可設 0.7
最大 Tokens	單次回覆的最大 Token 數	預設通常足夠；想讓回覆更長可調到 4096+
上下文長度	模型支援的總上下文視窗	影響夜鶯一次能塞多少診斷資料給模型，按你選的模型實際能力填（如 GPT-4o 128k）

儲存前測試連線

抽屜底部有三個按鈕：取消 / 測試連線 / 儲存。

強烈建議先點測試連線：夜鶯會用目前表單內容發一個最小化請求到 LLM 服務，驗證 URL/Key/模型都對。看到 連線成功 再點儲存 — 否則設定入庫後才發現錯誤就只能回來編輯。

第三方平台取得 API Key

下表給出主流提供商的 API Key 入口、對接 URL 以及關閉思考（thinking）模式的參數 — 思考模式會讓模型先輸出推理過程再回答，對告警 RCA／故障定位等「要快、要準、不要長篇大論」的場景往往是負擔，可以在「進階設定 → 自訂參數（JSON）」裡關掉。

平台	後台入口	推薦 API URL	關閉 thinking（寫入「自訂參數」）	備註
OpenAI	platform.openai.com/api-keys	`https://api.openai.com/v1`	GPT-5 系列：`{"reasoning":{"effort":"minimal"}}`；GPT-5.1 系列：`{"reasoning":{"effort":"none"}}`；GPT-4o / 4.1 系列本身無 thinking	國內需走代理
Azure OpenAI	Azure Portal → 你的 OpenAI 資源 → Keys and Endpoint	`https://<resource>.openai.azure.com/openai/deployments/<deployment>` + 加 `api-version` 自訂參數	同 OpenAI（按部署的模型版本而定）	URL 含部署名
阿里通義 DashScope	dashscope.console.aliyun.com/api-key	`https://dashscope.aliyuncs.com/compatible-mode/v1`	`{"enable_thinking":false}`（Qwen3+ 混合思考模型，如 `qwen3.6-plus`、`qwen3-plus`）；純思考模型如 `qwen3-235b-a22b-thinking-2507` 不可關	選「OpenAI 相容」；提示詞加 `/no_think` 也能動態關
火山方舟（豆包）	console.volcengine.com/ark	`https://ark.cn-beijing.volces.com/api/v3`	`{"thinking":{"type":"disabled"}}`（`doubao-seed-1.6/1.8` 混合思考模型，三個值：`enabled` / `disabled` / `auto`）；`doubao-seed-1.6-thinking` 等專用思考模型不可關	模型填 endpoint id，形如 `ep-xxx`
Moonshot Kimi	platform.moonshot.cn/console/api-keys	`https://api.moonshot.cn/v1`	`{"thinking":{"type":"disabled"}}`（`kimi-k2.5` / `kimi-k2.6`）；`kimi-k2-thinking` 始終思考不可關	—
DeepSeek	platform.deepseek.com/api_keys	`https://api.deepseek.com/v1`	切換模型即可：`deepseek-chat`（V3，非思考）；新版 `deepseek-v4-pro/flash` 用 `{"enable_thinking":false}`	`deepseek-reasoner` 思考預設開啟，無法關閉
智譜 GLM	open.bigmodel.cn	`https://open.bigmodel.cn/api/paas/v4`	`{"thinking":{"type":"disabled"}}` 或 `{"enable_thinking":false}`（GLM-4.5+ 思考模型，預設開）	`glm-4-plus` / `glm-4-flash` 等非思考模型無需設定
Ollama 本機	無（啟動 `ollama serve`）	`http://localhost:11434/v1`	思考模型（如 `deepseek-r1`、`qwq`）：`{"think":false}`	API Key 填任意非空字串；模型填 `ollama list` 看到的名字
Anthropic Claude	console.anthropic.com/settings/keys	`https://api.anthropic.com`	`{"thinking":{"type":"disabled"}}`（Sonnet 4.6 / Opus 4.6 等手動模式）；Opus 4.7 必須用 `{"thinking":{"type":"adaptive"}}` 不能 `disabled`	提供商類型選「Anthropic Claude」，不是 OpenAI 相容
Google Gemini	aistudio.google.com/app/apikey	`https://generativelanguage.googleapis.com`	`{"thinkingConfig":{"thinkingBudget":0}}`（Gemini 2.5 Flash / 3.x Flash）；Gemini 3 也可用 `{"thinkingLevel":"minimal"}`；Pro 系列不能完全關	提供商類型選「Google Gemini」

把 Key 當密碼看待 — 別提交到 git、別打到日誌裡。建議用 LLM 後台支援的「配額限額 + IP 白名單」做兜底。

關於 thinking 模式：是否要關並不是非黑即白。告警根因分析、PromQL 產生、日誌摘要這類需要穩定輸出格式的任務通常關掉更快更省 token；複雜程式碼產生、深度推理問答則建議開啟思考。可以建兩條 LLM 設定，一條 thinking 關、一條 thinking 開，按場景在 Skill / Agent 裡分別綁定。

常見問題

Q1：如何切換「預設 LLM」？現有的預設能改嗎？

A：可以。新建／編輯某條 LLM 設定時開啟「預設」開關並儲存，該實例下其他設定的「預設」會被自動取消（同時只能有一條預設）。智慧問答、Agent 預設對話等沒顯式指定模型的功能會立刻切到新預設模型。

Q2：測試連線失敗該怎麼排查？

A：按這個順序排查：

網路：在夜鶯 Server 所在機器上 curl -v <API URL>/chat/completions，看能否到達。出不去公網就在「進階設定 → 代理位址」加代理。
API URL：注意不帶 /chat/completions 後綴，只填到 /v1 這一級；某些代理需要帶版本號或部署名（Azure OpenAI 必須）。
模型名：模型名要和提供商後台嚴格一致。OpenAI 是 gpt-5.4，通義是 qwen3.6-plus，Azure 是部署名而不是模型基礎名。
API Key：檢查是否被截斷、首尾是否有空格；Anthropic 的 key 以 sk-ant- 開頭，OpenAI 以 sk- 開頭。
配額／付費：免費 tier 經常被掐速率或額度不足，到後台看一眼用量。