SRE - 快猫星云Flashcat

基于 Google Cloud Gemini Cloud Assist investigations 的公开资料，分析其 AI RCA 如何用 observations、hypotheses、start time、App Hub、revision 和 support handoff 把根因分析做成可验证的事故调查流程。

可观测性的价值，正在从“看见数据”转向“加快决策”

快猫星云 · 2026-06-10

可观测性的核心价值正在从采集和展示指标、日志、链路，转向把异常信号组织成可执行的故障判断路径，帮助 SRE 缩短从数据到决策的距离。

SRE 为什么越来越累：问题不在监控太少，而在信号没有变成行动

快猫星云 · 2026-06-08

SRE 的疲惫不在于监控不足，而在于告警、观测数据、响应流程和复盘没有形成从信号到行动的闭环。

值班表怎么排才合理？SRE On-call 轮班机制设计指南

Flashduty · 2026-05-27

从责任边界、主备机制、轮换周期、服务日历、通知偏好、调班与升级策略等角度，系统梳理 SRE On-call 值班表设计方法。

用 catpaw 监控你的监控系统：给 Prometheus 和 Nightingale 加一层外部哨兵

快猫星云 · 2026-04-13

监控系统本身也会失效。本文介绍如何用 catpaw 给 Prometheus、Nightingale、Alertmanager 增加独立外部哨兵，从 systemd、进程、HTTP、磁盘、日志、时间同步和 MCP 等角度降低监控失声与值班盲飞风险。

AI 会替代运维老司机吗？五类产品形态重塑 SRE 与 AIOps

快猫星云 · 2026-04-13

AI 短期不会直接替代运维岗位，但会优先替代依赖个人经验、上下文记忆和人工协同的工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态，分析 AI 时代运维体系的演进方向。

如何采用 SRE 实践（当你不是 Google 时）

JEMIAH SIUS · 2025-12-26

非 Google 公司如何采用 SRE 实践：从 SRE 团队组建、成熟度模型、SLI/SLO/SLA 实践到监控自动化，一步步落地站点可靠性工程，提升系统性能和可靠性。

SRE解决的核心问题究竟是什么？

汪照辉 · 2025-12-26

SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。通过自动化工具和软件工程方法，SRE 确保系统增长时运维人力不会线性增加，实现运维的敏捷来支撑研发的敏捷。

从症状到解决方案：排查 Java 内存泄漏与内存溢出错误

Ram Lakshmanan · 2025-12-10

本文介绍了如何识别和排查 Java 应用中的内存泄漏和内存溢出错误，提供了实用的技巧和工具，帮助工程师快速定位并解决内存相关问题。

给首次担任专家级 SRE（网站可靠性工程师）的几点建议

译文 · 2025-12-08

本文分享了首次担任专家级 SRE 的一些建议，涵盖了思维模式的转变、团队协作、技术领导力等方面，帮助新晋专家级 SRE 更好地适应角色并推动系统可靠性。

在 Kubernetes 中构建统一的 OpenTelemetry 流水线

译文 · 2025-11-17

通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线，提升可观测性和故障排查效率。

SRE 实践真经：可观测性、SLOs、Runbooks 与事故报告

fatihkoc · 2025-11-14

本文聚焦于将可观测性转化为可靠性的人员体系，介绍如何定义能指导决策的 SLO、构建可扩展团队知识的运行手册、设计能推动改进的结构化事后分析，以及如何将这些实践融入工程文化。

标签：SRE

SRE 相关文章

故障复盘报告怎么写：AI 可以生成初稿，但不能替你承担改进责任

AI 根因分析为什么经常不准：缺的不是模型，而是上下文

AI SRE 不应该是聊天机器人，而应该是带工具的调查员

业务故障不是 CPU 高：为什么 SRE 需要北极星指标

为什么全栈可观测已经建设了，故障时还是不知道先看哪里

事件墙为什么重要：根因定位经常不是查指标，而是找到“刚才变了什么”

OpenTelemetry 解决了数据标准，但没有自动解决排障路径

On-call 不是轮流背锅：如何设计一个不把人耗干的值班体系

Google Cloud 的 AI RCA 路线：别急着猜根因，先把假设做扎实