SRE

SRE 的全称是 Site Reliability Engineering，SRE 是一种以可靠性为核心的工程实践，它通过自动化、可观测性、稳定性优先和持续改进等原则，确保大规模分布式系统的可靠运行。

搜索 SRE

相关话题 IT监控故障定位告警OnCall 用户案例 Prometheus VictoriaMetrics Categraf 夜莺监控

Topic Overview

SRE 这个话题主要看什么

SRE 理念最初由 Google 提出并实践。随着互联网的快速发展和数字化转型的加速，SRE 的方法和理念在全球范围内的科技企业中得到了广泛的关注和应用。它的出现是为了解决大规模分布式系统的可靠性、稳定性和高效运维问题。

SRE 的全称是 Site Reliability Engineering，SRE 是一种以可靠性为核心的工程实践，它通过自动化、可观测性、稳定性优先和持续改进等原则，确保大规模分布式系统的可靠运行。SRE 团队需要具备扎实的技术技能和良好的软技能，与开发团队紧密合作，共同推动业务的发展。

71 已收录内容

4 人工精选

67 自动聚合

SRE 相关文章

围绕 SRE 的实践、选型、案例和产品内容，按同一阅读路径持续整理。

71 篇

运维百家讲坛第2期：作业帮聂安 - 运维如何转型，听听作业帮的OPaS思路

聂安@作业帮 · 2023-03-01

作业帮聂安系统阐述云原生时代传统运维的领域危机，以及通过 OPaS、ICSP、IDP、同构维持、业务运维和运维中台实现服务化转型的路径。

CTO药方：如何搭建运维/SRE能力

秦晓辉@快猫星云 · 2023-02-28

面向 CTO/CIO 的运维/SRE 能力建设指南：从自建团队、第三方供应商、基础环境、变更管理、可靠性保障、最佳实践和人才选择等角度，拆解企业如何获得稳定性支撑能力。

秘籍：分析Linux性能问题！只要一分钟！

译者：秦晓辉@快猫星云 · 2023-02-27

本文意译 Netflix 技术博客 Linux Performance Analysis in 60,000 Milliseconds，介绍如何在登录服务器后的 60 秒内用 uptime、dmesg、vmstat、mpstat、pidstat、iostat、free、sar 和 top 快速判断 CPU、内存、磁盘、网络和进程瓶颈。

网站可靠性工程师

译者：秦晓辉@快猫星云 · 2023-02-26

什么是网站可靠性工程师 SRE：解释 SRE 与 DevOps 的关系、SRE 的职责、技能要求、日常工作、常见工具和收入参考，说明 SRE 如何用软件工程方法提升系统可靠性。

运维百家讲坛第1期：井源 - 运维几何

秦晓辉&井源 · 2023-01-26

运维百家讲坛第 1 期访谈井源，围绕运维价值度量、云和 Kubernetes 对岗位的影响、AIOps、ChatGPT、部署职责、多云架构和 SRE 转型展开。

手把手融汇贯通网络流量分析

VicLai · 2022-11-23

本文系统讲解网络流量分析：从端口镜像、无源分光、NetFlow/sFlow 采样等流量采集方案，到原始套接字、Libpcap、PF_RING、DPDK、全流量协议解析和 Flow 采样分析，帮助读者理解如何选择和建设流量分析系统。

二十年里12个开源监控工具大对比

VicLai · 2022-11-22

回顾过去二十年里 12 款典型开源监控工具，从数据采集、告警到图表展示梳理各自特点、优缺点与适用场景，适合做监控体系建设和技术选型参考。

站点可靠性运维综述

VicLai · 2022-11-21

系统综述站点可靠性运维的定位、SRE 核心价值、高可用运维、服务架构设计、可用性指标和运维自动化建设经验。

服务器生命周期管理

VicLai · 2022-11-21

面向自建 IDC 场景，梳理服务器从采购、装机、服务准备、在线服务、故障维修到报废的生命周期状态、前置资源池和自动化管理原则。

最佳实践：服务挂了，学费交了，掌握这6点就值了

华明@快猫星云 · 2022-11-17

一次线上服务故障之后，技术团队应该如何应急响应、快速止损和复盘沉淀？本文总结 6 个稳定性保障误区与对应经验。

建立云原生组织的8个要素

laiwei · 2022-05-25

建立云原生组织需要围绕 Business KPIs、SLOs、平台团队、SRE 团队、应用开发团队、DevOps、GitOps 和 IaC 搭建协作机制，让技术团队更快支撑业务迭代并保障系统稳定。

快猫星云联系方式

快猫星云联系方式

快猫星云联系方式

快猫星云Email

申请技术交流产品试用

快猫星云

产品

可私有化部署的全栈智能观测平台

SaaS 化的智能告警响应平台

SaaS 化的真实用户监控平台

开源项目

云原生监控告警系统

All-in-one 数据采集器

合作伙伴计划

携手拓展 AI SRE 市场

用户落地实践与案例集入口

开发者中心

集成开发文档与工具

产品使用指南与 API 参考

获取最新安装包与工具

产品演示与教程

技术分享与行业话题