PagerDuty 的 AI RCA 不是找一个根因,而是把告警变成可处理的事故
本文基于 PagerDuty 在 AIOps、事件编排、告警聚合、Probable Origin、历史事故和响应自动化方向的公开产品能力,拆解其 AI RCA 如何把分散告警转化为可处理的事故对象,并总结对 AI SRE 产品设计的启发。
汇总 Flashcat 博客中与 AIOps 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
本文基于 PagerDuty 在 AIOps、事件编排、告警聚合、Probable Origin、历史事故和响应自动化方向的公开产品能力,拆解其 AI RCA 如何把分散告警转化为可处理的事故对象,并总结对 AI SRE 产品设计的启发。
本文基于 Datadog 在 AI SRE 和 AI RCA 方向的公开产品动作,拆解 Bits AI SRE、Watchdog RCA、Change Tracking、Runbook、Incident AI、Dev Agent、MCP 和评估体系如何把可观测性平台升级成会自动调查问题的生产系统智能层。
本文基于 Grafana 在 AI RCA 和 AI SRE 方向的公开产品动作,拆解为什么 AI RCA 不能只是聊天框或根因按钮,而要进入指标、日志、链路、Profile、Dashboard、事故时间线和权限体系组成的可观测性工作台。
本文基于 Neubird 的公开产品、文档和技术思路,拆解 AI SRE 和 AI RCA 为什么不能停留在聊天总结,而要围绕自动调查、证据链、MELT+、安全执行环境、runbook 和工作流入口重新产品化排障过程。
本文基于 Resolve AI 的公开产品思路,拆解 AI SRE 和 AI RCA 为什么不能只做告警问答,而要围绕生产上下文、证据包、多 Agent 查证、本地代理、安全权限和受控行动重新产品化故障处理流程。
Splunk 的 AI RCA 路线真正值得学的,不是做一个会聊天的运维助手,而是把 AI 放进告警、证据、事件聚合和行动计划这条完整故障处理链路。
本文基于 Elastic 官方公开资料,拆解 Elastic 如何把搜索、日志治理、机器学习、AI Assistant、Elastic AI Agent、Agent Builder、Workflows 和 MCP Apps 串成 AI RCA 故障调查链路,并总结对可观测性产品设计的启发。
本文基于 New Relic 在 AI SRE、AIOps 和 RCA 方向的公开产品动作,拆解 AI RCA 为什么不能只做成一个告警解释按钮,而应该围绕 Issue、事件关联、影响分析、相似问题、工作流和 Agent 重新产品化故障处理链路。
本文基于 Dynatrace 官方公开资料,拆解其 AI RCA 如何通过统一数据底座、实时拓扑、事件归并、因果分析和 Problem 对象构建根因分析能力,并总结对可观测性产品设计的启发。
AI 短期不会直接替代运维岗位,但会优先替代依赖个人经验、上下文记忆和人工协同的工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态,分析 AI 时代运维体系的演进方向。
AI Agent 和 LLM 应用进入生产后,可观测性不再只是排障工具,而会成为可靠性、治理、审计、成本控制和 Agent 自动化的运行时控制平面。本文梳理最近 3 个月的行业信号和企业落地建议。
在 2025 年,将 AI Agent 部署到生产环境需要全新的监控和可观测性策略。本文介绍了关键指标、成本监控、结构化日志和分布式追踪的最佳实践,帮助团队确保 AI Agent 的可靠性和性能。
智能 Oncall 让每个工程师可以利用大模型,来帮助自己分担故障处理、问题分析的繁琐工作,并做的更好更快。
在会议现场,我分享了 Zenlayer 在 AI 方向的一些实践效果,有些基础知识、选型思考等,并未在大会现场展开,这里我会在这篇文章中进行一些补充,希望能够给大家带来一些启发。更多的是提供一种思路和需要了解的实现背景的逻辑,而不是给出固定化的实现方式,也是希望能够有更多活跃思考。
AIOps是个挺火的词,但是真正落地效果较好的就是智能异常检测,本文来讲解如何为夜莺引入智能异常检测算法,实现智能告警
夜莺监控(Nightingale)开源版本只支持阈值告警,如何开启智能告警能力,使用算法做预测分析