SRE

SRE 的全称是 Site Reliability Engineering，SRE 是一种以可靠性为核心的工程实践，它通过自动化、可观测性、稳定性优先和持续改进等原则，确保大规模分布式系统的可靠运行。

搜索 SRE

相关话题 IT监控故障定位告警OnCall 用户案例 Prometheus VictoriaMetrics Categraf 夜莺监控

Topic Overview

SRE 这个话题主要看什么

SRE 理念最初由 Google 提出并实践。随着互联网的快速发展和数字化转型的加速，SRE 的方法和理念在全球范围内的科技企业中得到了广泛的关注和应用。它的出现是为了解决大规模分布式系统的可靠性、稳定性和高效运维问题。

SRE 的全称是 Site Reliability Engineering，SRE 是一种以可靠性为核心的工程实践，它通过自动化、可观测性、稳定性优先和持续改进等原则，确保大规模分布式系统的可靠运行。SRE 团队需要具备扎实的技术技能和良好的软技能，与开发团队紧密合作，共同推动业务的发展。

71 已收录内容

4 人工精选

67 自动聚合

SRE 相关文章

围绕 SRE 的实践、选型、案例和产品内容，按同一阅读路径持续整理。

71 篇

SRE解决的核心问题究竟是什么？

汪照辉 · 2025-12-26

SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。它用软件工程、自动化工具和可靠性方法，使系统增长时运维人力不必线性增加，并以运维敏捷支撑研发敏捷。

从症状到解决方案：排查 Java 内存泄漏与内存溢出错误

Ram Lakshmanan · 2025-12-10

从症状、堆转储分析到修复验证，梳理 Java 内存泄漏和 OutOfMemoryError 排查方法：关注堆内存趋势、CPU 飙升、响应超时、Heap Dump、Dominator Tree 和 Class Histogram。

给首次担任专家级 SRE（网站可靠性工程师）的几点建议

译文 · 2025-12-08

给首次担任 Staff SRE 或专家级 SRE 的实践建议：如何从个人救火转向组织级可靠性影响力，推动跨团队协作、系统化改进、健康值班和长期可靠性工程。

在 Kubernetes 中构建统一的 OpenTelemetry 流水线

译文 · 2025-11-17

通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线，提升可观测性和故障排查效率。

SRE 实践真经：可观测性、SLOs、Runbooks 与事故报告

fatihkoc · 2025-11-14

本文聚焦于将可观测性转化为可靠性的人员体系，介绍如何定义能指导决策的 SLO、构建可扩展团队知识的运行手册、设计能推动改进的结构化事后分析，以及如何将这些实践融入工程文化。

Kafka集群故障排除：常见问题及解决方案

Sean Riley · 2025-10-22

梳理 Kafka 集群常见性能与稳定性调优项：分区数量、ISR 滞后、网络与 I/O 线程、生产者压缩、acks、消费者 fetch、socket buffer、KRaft 超时、log.dirs 和复制因子。

Elasticsearch 常见问题排查方法

译文 · 2025-10-21

系统梳理 Elasticsearch 常见问题排查方法：备份快照、日志权限、Bootstrap 检查、Discovery 配置、集群组建、red/yellow/green 状态、分片分配和快照恢复。

NetFlix SRE 实践

Hank Jacobs · 2025-08-11

基于 Netflix CORE 团队 SRE 工程师 Hank Jacobs 的分享，梳理 Netflix 中心化可靠性团队如何承担业务 KPI 监控、事件管理、事件后分析、可靠性咨询和系统性风险识别。

掌握这些能力，工资翻倍不成问题

快猫运营团队 · 2025-07-16

SRE 想提升职业竞争力，不能只重复日常运维工作，而要系统提升底层技术、故障响应、架构规划、协作沟通和业务理解能力。

大厂出手了，微软推出 SRE agent 做故障定位

译文 · 2025-06-06

介绍微软 Azure SRE Agent 的能力与工作方式，涵盖 Azure 资源上下文、事件响应、日志和指标分析、根因定位、安全检查、人工批准后的止损动作以及 GitHub 闭环。

如何处理复杂系统 - 我在 Google 工作时学到的

Teiva Harsanyi · 2025-05-26

本文翻译并整理 Teiva Harsanyi 关于复杂系统的经验：区分 complicated 与 complex，解释涌现行为、延迟后果、局部优化、迟滞和非线性，并总结可逆决策、全局指标、受控发布、可观测性、模拟、机器学习和团队协作等处理方法。

运维想转SRE？先了解这7个原则

译文 · 2025-05-26

介绍 SRE（站点可靠性工程）的七项原则：拥抱风险、SLO、消除琐事、监控、自动化、发布工程和简洁性，帮助运维人员理解从传统运维转向 SRE 的核心方法。

SRE 最应该监控的四大黄金指标

Ayooluwa Isaiah · 2025-04-28

系统介绍 SRE 四大黄金指标 Latency、Traffic、Errors、Saturation，并结合 RED、USE 与 Prometheus 示例说明如何监控服务健康、设置告警和支撑 SLO。

什么样的项目，可由运维负责稳定性？

巴辉特 · 2025-04-07

项目是否可由运维共担稳定性，应先通过运维准入标准。建议从可用性、性能、可观测性和 SOP 四个方面评估，未达到标准的项目可以让运维介入，但不应让运维单独负责稳定性。

运维的价值为何经常被挑战？哪些工作更有价值？

秦晓辉 · 2025-03-25

运维价值经常被挑战，根因通常在于研发与运维的边界、平台化能力、生产规范和业务技术支持没有被说清楚。

实施 SLA、SLO 和 SLI：SRE 实用指南

Karthigayan Devan · 2024-07-23

面向 SRE 实践解释 SLA、SLO、SLI 和 Error Budget 的关系，说明如何为生产服务选择可衡量目标、落地监控指标并避免常见误区。

排查 502 Bad Gateway 的常见思路

巴辉特 · 2024-04-24

从 SRE 视角梳理 502 Bad Gateway 排查路径：用 Chrome 开发者工具确认接口，用 cURL 绕过 Nginx 验证后端，结合 Nginx 日志、超时配置、容器日志和 OOM 线索定位问题。

写了一个 SRE 调试工具，类似一个小木马

巴辉特 · 2024-04-10

gohttpd 是一个面向 SRE 临时调试场景的小型 HTTP 工具，可用于受控环境下远程执行命令、上传下载文件、打印 HTTP 请求和调试 Webhook。

Google SRE 的 on-call 方法和工具

Flashcat · 2023-12-26

从 Google SRE 的 OnCall 方法、减少琐事原则和 Outalator 工具出发，分析国内团队落地 OnCall 时需要补齐的文化、机制、工具、指标和产品能力。

SRE Google 运维解密读书笔记三：服务质量目标

秦晓辉@快猫星云 · 2023-05-26

《Google 运维解密》读书笔记第三篇：解释 SLI、SLO、SLA 的区别，SRE 在 SLO 制定中的职责，以及如何选择用户体验指标、长尾延迟和业务北极星指标。

快猫星云联系方式

快猫星云联系方式

快猫星云联系方式

快猫星云Email

申请技术交流产品试用

快猫星云

产品

可私有化部署的全栈智能观测平台

SaaS 化的智能告警响应平台

SaaS 化的真实用户监控平台

开源项目

云原生监控告警系统

All-in-one 数据采集器

合作伙伴计划

携手拓展 AI SRE 市场

用户落地实践与案例集入口

开发者中心

集成开发文档与工具

产品使用指南与 API 参考

获取最新安装包与工具

产品演示与教程

技术分享与行业话题