制造业 IT/OT 可观测性:从工厂网络和 MES 到云原生应用
制造业可靠性已经是 IT/OT 共同问题。本文介绍如何把工厂网络、MES、数据库、云原生应用、告警响应和 AI SRE 连接成可观测对象模型,从关键产线试点开始提升故障诊断和响应效率。
汇总 Flashcat 博客中与 AI SRE 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
制造业可靠性已经是 IT/OT 共同问题。本文介绍如何把工厂网络、MES、数据库、云原生应用、告警响应和 AI SRE 连接成可观测对象模型,从关键产线试点开始提升故障诊断和响应效率。
本文基于 LogicMonitor Edwin AI 的公开产品能力,拆解传统企业 IT 场景下 AI SRE 如何围绕告警降噪、事件关联、日志证据、变更单、历史事故、知识库、受控自动化和权限边界落地。
AI SRE 的价值不是生成通用建议,而是带着 Incident 上下文调用指标、日志、Trace、事件、runbook 和知识库,输出有证据、有边界、可审计的故障调查结论。
SRE 的疲惫不在于监控不足,而在于告警、观测数据、响应流程和复盘没有形成从信号到行动的闭环。
本文基于 Chronosphere 在可观测性控制平面、DDx、Trace Explorer、Guided Troubleshooting、Temporal Knowledge Graph、Investigation Notebook 和 MCP 方向的公开产品能力,拆解为什么 AI RCA 之前必须先治理 telemetry 成本、质量和权限边界。
本文基于 AWS CloudWatch Investigations、Amazon Q Developer 等公开产品能力,拆解云厂商在 AI Ops 和 AI RCA 中如何利用资源、变更、调用链、权限和 runbook 上下文,把排障从聊天问答推进到可追踪的 investigation 工作流。
夜莺 v9 把团队最资深 SRE 的经验装进了系统:告警真假判定从 20 分钟缩到 2 分钟、告警事件分析、自然语言一句话搭起监控、19 个开箱即用 Skill 还能写出贴合自己场景的 Skill,而且数据可以完全不离域。本文系统介绍夜莺 v9 的 AI 能力、五大场景与安全边界。
BigPanda 的 AI SRE 路线不是让大模型直接猜根因,而是先把多源告警、变更、拓扑、历史事故和工单知识聚合成可调查、可分派、可自动化的 incident,再让 AI 做解释、分诊和 L1 自动化。
分析 Sentry Seer 的 AI RCA 路线:以 production issue 为入口,结合 stack trace、runtime context、代码库、Root Cause Analysis、自动修复和 PR 流程,把根因分析推进到可审查的代码交付。
AI RCA 产品建设框架:从生产上下文、事件治理、调查引擎、工具调用、证据链、协作工作台到行动闭环,说明可观测性平台如何把根因分析做成可验证、可协作、可治理的生产调查系统。
本文基于 ServiceNow 在 Event Management、CMDB、Service Observability、Now Assist、AI agents、LEAP、变更治理和 AI Control Tower 等方向的公开能力,拆解其 AI RCA 如何从告警分析走向企业运维流程,并总结对 AI SRE 产品设计的启发。
本文基于 PagerDuty 在 AIOps、事件编排、告警聚合、Probable Origin、历史事故和响应自动化方向的公开产品能力,拆解其 AI RCA 如何把分散告警转化为可处理的事故对象,并总结对 AI SRE 产品设计的启发。
本文拆解 Honeycomb 的 AI RCA 路线:BubbleUp 如何比较异常请求与正常请求,Canvas 如何保持查询可验证,MCP 如何把生产上下文交给 AI agent,以及 SLO、高基数字段为什么是 RCA 的基础。
本文基于 Datadog 在 AI SRE 和 AI RCA 方向的公开产品动作,拆解 Bits AI SRE、Watchdog RCA、Change Tracking、Runbook、Incident AI、Dev Agent、MCP 和评估体系如何把可观测性平台升级成会自动调查问题的生产系统智能层。
本文基于 Grafana 在 AI RCA 和 AI SRE 方向的公开产品动作,拆解为什么 AI RCA 不能只是聊天框或根因按钮,而要进入指标、日志、链路、Profile、Dashboard、事故时间线和权限体系组成的可观测性工作台。
本文基于 Neubird 的公开产品、文档和技术思路,拆解 AI SRE 和 AI RCA 为什么不能停留在聊天总结,而要围绕自动调查、证据链、MELT+、安全执行环境、runbook 和工作流入口重新产品化排障过程。
从 Rootly 的 AI SRE、RCA、On-call、Meeting Scribe、MCP Server 和 Edge Connector 路线出发,分析为什么 AI RCA 必须依赖完整事故上下文,而不能只解释单条告警或可观测性数据。
本文基于 Resolve AI 的公开产品思路,拆解 AI SRE 和 AI RCA 为什么不能只做告警问答,而要围绕生产上下文、证据包、多 Agent 查证、本地代理、安全权限和受控行动重新产品化故障处理流程。
本文基于 incident.io 在 AI SRE、事故管理和 RCA 方向的公开产品动作,拆解为什么 AI RCA 不能只依赖可观测性数据,而要把告警、事故频道、协作上下文、组织记忆、复盘和行动项串成完整的事故生命周期。
本文基于 New Relic 在 AI SRE、AIOps 和 RCA 方向的公开产品动作,拆解 AI RCA 为什么不能只做成一个告警解释按钮,而应该围绕 Issue、事件关联、影响分析、相似问题、工作流和 Agent 重新产品化故障处理链路。