SRE - 快猫星云Flashcat

基于 Google Cloud Gemini Cloud Assist investigations 的公开资料，分析其 AI RCA 如何用 observations、hypotheses、start time、App Hub、revision 和 support handoff 把根因分析做成可验证的事故调查流程。

可观测性的价值，正在从“看见数据”转向“加快决策”

快猫星云 · 2026-06-10

可观测性的核心价值正在从采集和展示指标、日志、链路，转向把异常信号组织成可执行的故障判断路径，帮助 SRE 缩短从数据到决策的距离。

SRE 为什么越来越累：问题不在监控太少，而在信号没有变成行动

快猫星云 · 2026-06-08

SRE 的疲惫不在于监控不足，而在于告警、观测数据、响应流程和复盘没有形成从信号到行动的闭环。

值班表怎么排才合理？SRE On-call 轮班机制设计指南

Flashduty · 2026-05-27

从责任边界、主备机制、轮换周期、服务日历、通知偏好、调班、升级策略和数据复盘角度，系统梳理 SRE On-call 值班表设计方法。

用 catpaw 监控你的监控系统：给 Prometheus 和 Nightingale 加一层外部哨兵

快猫星云 · 2026-04-13

监控系统本身也会失效。本文介绍如何用 catpaw 给 Prometheus、Nightingale、Alertmanager 增加独立外部哨兵，从 systemd、进程、HTTP、磁盘、日志、时间同步和 MCP 等角度降低监控失声与值班盲飞风险。

AI 会替代运维老司机吗？五类产品形态重塑 SRE 与 AIOps

快猫星云 · 2026-04-13

AI 短期不会直接替代运维岗位，而会优先替代依赖个人经验、上下文记忆和人工协同的运维工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态，分析 AI Agent、AIOps 与 SRE 产品栈如何重塑运维体系。

如何采用 SRE 实践（当你不是 Google 时）

JEMIAH SIUS · 2025-12-26

非 Google 公司落地 SRE 的实践指南：解释 SRE 与 DevOps 的关系、团队职责、成熟度模型、自动化能力、SLI/SLO/SLA 设计，以及如何从监控和事件响应开始推进可靠性工程。

SRE解决的核心问题究竟是什么？

汪照辉 · 2025-12-26

SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。它用软件工程、自动化工具和可靠性方法，使系统增长时运维人力不必线性增加，并以运维敏捷支撑研发敏捷。

从症状到解决方案：排查 Java 内存泄漏与内存溢出错误

Ram Lakshmanan · 2025-12-10

从症状、堆转储分析到修复验证，梳理 Java 内存泄漏和 OutOfMemoryError 排查方法：关注堆内存趋势、CPU 飙升、响应超时、Heap Dump、Dominator Tree 和 Class Histogram。

给首次担任专家级 SRE（网站可靠性工程师）的几点建议

译文 · 2025-12-08

给首次担任 Staff SRE 或专家级 SRE 的实践建议：如何从个人救火转向组织级可靠性影响力，推动跨团队协作、系统化改进、健康值班和长期可靠性工程。

标签：SRE

SRE 相关文章

告警太多，不能只靠调阈值：从告警治理到 On-call 响应闭环

AI SRE 的第一步应是事件上下文，而不是无人值守自动修复

故障复盘报告怎么写：AI 可以生成初稿，但不能替你承担改进责任

AI 根因分析为什么经常不准：缺的不是模型，而是上下文

AI SRE 不应该是聊天机器人，而应该是带工具的调查员

业务故障不是 CPU 高：为什么 SRE 需要北极星指标

为什么全栈可观测已经建设了，故障时还是不知道先看哪里

事件墙为什么重要：根因定位经常不是查指标，而是找到“刚才变了什么”

OpenTelemetry 解决了数据标准，但没有自动解决排障路径

On-call 不是轮流背锅：如何设计一个不把人耗干的值班体系

Google Cloud 的 AI RCA 路线：别急着猜根因，先把假设做扎实