标签：AIOps

汇总 Flashcat 博客中与 AIOps 相关的文章，方便按主题连续阅读实践、案例、选型和产品更新。

搜索 AIOps

按主题浏览告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

AIOps 相关文章

LogicMonitor Edwin AI：传统 IT 运维里的 AI SRE 应该怎么落地

技术调研 · 2026-06-25

本文基于 LogicMonitor Edwin AI 的公开产品能力，拆解传统企业 IT 场景下 AI SRE 如何围绕告警降噪、事件关联、日志证据、变更单、历史事故、知识库、受控自动化和权限边界落地。

Chronosphere 的提醒：AI RCA 之前，先管住 telemetry 成本和质量

技术调研 · 2026-06-08

本文基于 Chronosphere 在可观测性控制平面、DDx、Trace Explorer、Guided Troubleshooting、Temporal Knowledge Graph、Investigation Notebook 和 MCP 方向的公开产品能力，拆解为什么 AI RCA 之前必须先治理 telemetry 成本、质量和权限边界。

AWS 的 AI Ops 路线：云厂商不只看监控，它掌握变更和资源上下文

技术调研 · 2026-06-05

本文基于 AWS CloudWatch Investigations、Amazon Q Developer 等公开产品能力，拆解云厂商在 AI Ops 和 AI RCA 中如何利用资源、变更、调用链、权限和 runbook 上下文，把排障从聊天问答推进到可追踪的 investigation 工作流。

夜莺 v9 AI：给每个 SRE 配一个 7x24 在线的资深副驾驶

夜莺 Team · 2026-05-29

夜莺 v9 把团队最资深 SRE 的经验装进了系统：告警真假判定从 20 分钟缩到 2 分钟、告警事件分析、自然语言一句话搭起监控、19 个开箱即用 Skill 还能写出贴合自己场景的 Skill，而且数据可以完全不离域。本文系统介绍夜莺 v9 的 AI 能力、五大场景与安全边界。

BigPanda 的价值不在会聊天，而在把告警风暴变成可调查事故

技术调研 · 2026-05-27

BigPanda 的 AI SRE 路线不是让大模型直接猜根因，而是先把多源告警、变更、拓扑、历史事故和工单知识聚合成可调查、可分派、可自动化的 incident，再让 AI 做解释、分诊和 L1 自动化。

AI RCA 不是一个按钮，而是一套生产调查系统

技术调研 · 2026-05-21

AI RCA 产品建设框架：从生产上下文、事件治理、调查引擎、工具调用、证据链、协作工作台到行动闭环，说明可观测性平台如何把根因分析做成可验证、可协作、可治理的生产调查系统。

ServiceNow 的启发：AI SRE 不只查指标，还要进入企业运维流程

技术调研 · 2026-05-17

本文基于 ServiceNow 在 Event Management、CMDB、Service Observability、Now Assist、AI agents、LEAP、变更治理和 AI Control Tower 等方向的公开能力，拆解其 AI RCA 如何从告警分析走向企业运维流程，并总结对 AI SRE 产品设计的启发。

PagerDuty 的 AI RCA 不是找一个根因，而是把告警变成可处理的事故

技术调研 · 2026-05-15

本文基于 PagerDuty 在 AIOps、事件编排、告警聚合、Probable Origin、历史事故和响应自动化方向的公开产品能力，拆解其 AI RCA 如何把分散告警转化为可处理的事故对象，并总结对 AI SRE 产品设计的启发。

Datadog 给 AI SRE 定了个主流模板：不是看数据，而是自动查问题

技术调研 · 2026-05-13

本文基于 Datadog 在 AI SRE 和 AI RCA 方向的公开产品动作，拆解 Bits AI SRE、Watchdog RCA、Change Tracking、Runbook、Incident AI、Dev Agent、MCP 和评估体系如何把可观测性平台升级成会自动调查问题的生产系统智能层。

Grafana 给 AI RCA 提了个醒：不要让大模型猜根因，要让它进工作台

技术调研 · 2026-05-12

本文基于 Grafana 在 AI RCA 和 AI SRE 方向的公开产品动作，拆解为什么 AI RCA 不能只是聊天框或根因按钮，而要进入指标、日志、链路、Profile、Dashboard、事故时间线和权限体系组成的可观测性工作台。

Neubird 给 AI SRE 提了个醒：真正难的不是回答，而是调查

技术调研 · 2026-05-08

本文基于 Neubird 的公开产品、文档和技术思路，拆解 AI SRE 和 AI RCA 为什么不能停留在聊天总结，而要围绕自动调查、证据链、MELT+、安全执行环境、runbook 和工作流入口重新产品化排障过程。

Resolve AI 给 AI SRE 打了个样：真正值钱的不是“会聊天”，而是“会查生产”

技术调研 · 2026-05-06

本文基于 Resolve AI 的公开产品思路，拆解 AI SRE 和 AI RCA 为什么不能只做告警问答，而要围绕生产上下文、证据包、多 Agent 查证、本地代理、安全权限和受控行动重新产品化故障处理流程。

Splunk 的 AI RCA 给了一个提醒：别再只做 AI 运维助手了

技术调研 · 2026-04-28

调研 Splunk/Cisco AI RCA 产品路线：AI Troubleshooting Agent、AI Assistant、MCP Server、ITSI、Event iQ 和 AppDynamics，分析为什么 AI RCA 应该嵌入告警、证据、事件聚合和行动计划链路。

Elastic AI RCA 产品调研

技术调研 · 2026-04-27

本文基于 Elastic 官方公开资料，拆解 Elastic 如何把搜索、日志治理、机器学习、AI Assistant、Elastic AI Agent、Agent Builder、Workflows 和 MCP Apps 串成 AI RCA 故障调查链路，并总结对可观测性产品设计的启发。

New Relic 告诉我们：AI RCA 不是一个按钮，而是一条故障处理流水线

技术调研 · 2026-04-20

本文基于 New Relic 在 AI SRE、AIOps 和 RCA 方向的公开产品动作，拆解 AI RCA 为什么不能只做成一个告警解释按钮，而应该围绕 Issue、事件关联、影响分析、相似问题、工作流和 Agent 重新产品化故障处理链路。

Dynatrace 的 AI RCA 做对了什么

技术调研 · 2026-04-20

本文基于 Dynatrace 官方公开资料，拆解其 AI RCA 如何通过统一数据底座、实时拓扑、事件归并、因果分析和 Problem 对象构建根因分析能力，并总结对可观测性产品设计的启发。

AI 会替代运维老司机吗？五类产品形态重塑 SRE 与 AIOps

快猫星云 · 2026-04-13

AI 短期不会直接替代运维岗位，而会优先替代依赖个人经验、上下文记忆和人工协同的运维工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态，分析 AI Agent、AIOps 与 SRE 产品栈如何重塑运维体系。

AI 时代的可观测性：从排障工具到运行时控制平面

快猫星云 · 2026-04-12

AI Agent 和 LLM 应用进入生产后，可观测性会从排障工具升级为连接可靠性、治理、审计、成本控制和自动化动作的运行时控制平面。本文基于 2025-12-30 至 2026-03-30 的行业信号，梳理 AI 可观测性的演进方向、厂商转型重点和企业落地路径。

AI Agent 监控与可观测性：2025 生产实践指南

他山之石 · 2026-01-27

2025 年 AI Agent 监控与可观测性实践指南，覆盖成功率、延迟、Token 成本、错误率、业务结果、结构化日志、分布式追踪、告警设计和生产故障排查。

AI 加速可观测，为工程师打造智能Oncall分身

快猫技术 · 2025-04-14

AI OnCall 通过大模型、可观测性数据、多智能体分析和工程师确认后的知识库，帮助工程师更快完成告警响应、问题分析和根因定位。