SRE

SRE 的全称是 Site Reliability Engineering，SRE 是一种以可靠性为核心的工程实践，它通过自动化、可观测性、稳定性优先和持续改进等原则，确保大规模分布式系统的可靠运行。

搜索 SRE

相关话题 IT监控故障定位告警OnCall 用户案例 Prometheus VictoriaMetrics Categraf 夜莺监控

Topic Overview

SRE 这个话题主要看什么

SRE 理念最初由 Google 提出并实践。随着互联网的快速发展和数字化转型的加速，SRE 的方法和理念在全球范围内的科技企业中得到了广泛的关注和应用。它的出现是为了解决大规模分布式系统的可靠性、稳定性和高效运维问题。

SRE 的全称是 Site Reliability Engineering，SRE 是一种以可靠性为核心的工程实践，它通过自动化、可观测性、稳定性优先和持续改进等原则，确保大规模分布式系统的可靠运行。SRE 团队需要具备扎实的技术技能和良好的软技能，与开发团队紧密合作，共同推动业务的发展。

71 已收录内容

4 人工精选

67 自动聚合

SRE 相关文章

围绕 SRE 的实践、选型、案例和产品内容，按同一阅读路径持续整理。

71 篇

运维工程师（SRE）必须掌握的技能有哪些？

巴辉特 · 2024-07-18

运维工程师和 SRE 需要同时具备个人素养、职业素养、基础技术、业务技术、横向技术和体系思考能力，才能从执行岗位成长为高阶工程角色。

SRE接手新业务首要工作：运维准入测试

秦晓辉@快猫星云 · 2023-03-24

SRE 接手新业务前要做运维准入测试，把架构、容量、稳定性、安全、可观测性和责任边界前置验证，避免上线后由运维替设计缺陷背锅。

最佳实践：稳定性保障8个锦囊，建议收藏！

快猫技术 · 2023-10-09

稳定性保障的关键，是把业务可用性目标、故障发现定位止损、冗余切换、降级熔断、限流、弹性伸缩、灰度发布和云服务治理串成可执行闭环。本文总结 8 个稳定性保障实践，适合 SRE、运维和研发团队用于故障响应与可靠性建设。

如何采用 SRE 实践（当你不是 Google 时）

JEMIAH SIUS · 2025-12-26

非 Google 公司落地 SRE 的实践指南：解释 SRE 与 DevOps 的关系、团队职责、成熟度模型、自动化能力、SLI/SLO/SLA 设计，以及如何从监控和事件响应开始推进可靠性工程。

告警太多，不能只靠调阈值：从告警治理到 On-call 响应闭环

快猫星云 · 2026-07-03

面向 SRE、平台工程和运维团队，说明为什么告警治理不能停留在调阈值，而要连接标签、责任人、降噪、路由、排班、升级、复盘和管理指标。

AI SRE 的第一步应是事件上下文，而不是无人值守自动修复

快猫星云 · 2026-07-03

面向正在评估 AI SRE 的企业团队，说明为什么第一阶段应优先做事件上下文收集、相似事件对比、沟通草稿和复盘材料，而不是直接无人值守自动修复。

故障复盘报告怎么写：AI 可以生成初稿，但不能替你承担改进责任

快猫星云 · 2026-06-17

说明故障复盘报告的正确写法：AI 可以整理时间线、告警上下文、战情室讨论和初稿，但根因确认、影响判断、行动项承诺和验收责任必须由团队承担。

AI 根因分析为什么经常不准：缺的不是模型，而是上下文

快猫星云 · 2026-06-17

AI RCA 要可靠，关键不是只换更强模型，而是把拓扑、服务目录、指标、日志、Trace、变更事件、runbook 和响应上下文组织成可调查证据链。

AI SRE 不应该是聊天机器人，而应该是带工具的调查员

快猫星云 · 2026-06-17

AI SRE 的价值不是生成通用建议，而是带着 Incident 上下文调用指标、日志、Trace、事件、runbook 和知识库，输出有证据、有边界、可审计的故障调查结论。

业务故障不是 CPU 高：为什么 SRE 需要北极星指标

快猫星云 · 2026-06-16

SRE 需要从业务健康出发识别真故障，再沿着北极星、过程指标、灭火图、日志、Trace 和事件墙定位技术根因。

为什么全栈可观测已经建设了，故障时还是不知道先看哪里

快猫星云 · 2026-06-16

全栈可观测不等于排障路径清晰。真正有价值的平台要把入口、对象、上下文和下钻路径组织起来，减少事故现场翻页面和手工拼线索。

事件墙为什么重要：根因定位经常不是查指标，而是找到“刚才变了什么”

快猫星云 · 2026-06-16

事件墙把发布、配置、运行时、告警和运营事件放回同一时间窗口，帮助团队从指标异常快速追到变化证据。

OpenTelemetry 解决了数据标准，但没有自动解决排障路径

快猫星云 · 2026-06-16

OpenTelemetry 让指标、日志和链路具备统一上下文，但要真正降低 MTTR，还需要对象模型、下钻规则、事件上下文和责任边界。

On-call 不是轮流背锅：如何设计一个不把人耗干的值班体系

快猫星云 · 2026-06-15

健康的 On-call 不是排满值班表，而是同时治理告警质量、值班负载、升级路径、休息补偿和复盘改进，让正确的人处理正确的问题。

Google Cloud 的 AI RCA 路线：别急着猜根因，先把假设做扎实

技术调研 · 2026-06-11

基于 Google Cloud Gemini Cloud Assist investigations 的公开资料，分析其 AI RCA 如何用 observations、hypotheses、start time、App Hub、revision 和 support handoff 把根因分析做成可验证的事故调查流程。

可观测性的价值，正在从“看见数据”转向“加快决策”

快猫星云 · 2026-06-10

可观测性的核心价值正在从采集和展示指标、日志、链路，转向把异常信号组织成可执行的故障判断路径，帮助 SRE 缩短从数据到决策的距离。

SRE 为什么越来越累：问题不在监控太少，而在信号没有变成行动

快猫星云 · 2026-06-08

SRE 的疲惫不在于监控不足，而在于告警、观测数据、响应流程和复盘没有形成从信号到行动的闭环。

值班表怎么排才合理？SRE On-call 轮班机制设计指南

Flashduty · 2026-05-27

从责任边界、主备机制、轮换周期、服务日历、通知偏好、调班、升级策略和数据复盘角度，系统梳理 SRE On-call 值班表设计方法。

用 catpaw 监控你的监控系统：给 Prometheus 和 Nightingale 加一层外部哨兵

快猫星云 · 2026-04-13

监控系统本身也会失效。本文介绍如何用 catpaw 给 Prometheus、Nightingale、Alertmanager 增加独立外部哨兵，从 systemd、进程、HTTP、磁盘、日志、时间同步和 MCP 等角度降低监控失声与值班盲飞风险。

AI 会替代运维老司机吗？五类产品形态重塑 SRE 与 AIOps

快猫星云 · 2026-04-13

AI 短期不会直接替代运维岗位，而会优先替代依赖个人经验、上下文记忆和人工协同的运维工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态，分析 AI Agent、AIOps 与 SRE 产品栈如何重塑运维体系。

快猫星云联系方式

快猫星云联系方式

快猫星云联系方式

快猫星云Email

申请技术交流产品试用

快猫星云

产品

可私有化部署的全栈智能观测平台

SaaS 化的智能告警响应平台

SaaS 化的真实用户监控平台

开源项目

云原生监控告警系统

All-in-one 数据采集器

合作伙伴计划

携手拓展 AI SRE 市场

用户落地实践与案例集入口

开发者中心

集成开发文档与工具

产品使用指南与 API 参考

获取最新安装包与工具

产品演示与教程

技术分享与行业话题