SRE 这个话题主要看什么
SRE 的全称是 Site Reliability Engineering,SRE 是一种以可靠性为核心的工程实践,它通过自动化、可观测性、稳定性优先和持续改进等原则,确保大规模分布式系统的可靠运行。SRE 团队需要具备扎实的技术技能和良好的软技能,与开发团队紧密合作,共同推动业务的发展。
SRE 的全称是 Site Reliability Engineering,SRE 是一种以可靠性为核心的工程实践,它通过自动化、可观测性、稳定性优先和持续改进等原则,确保大规模分布式系统的可靠运行。
围绕 SRE 的实践、选型、案例和产品内容,按同一阅读路径持续整理。
本文分享了首次担任专家级 SRE 的一些建议,涵盖了思维模式的转变、团队协作、技术领导力等方面,帮助新晋专家级 SRE 更好地适应角色并推动系统可靠性。
通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线,提升可观测性和故障排查效率。
本文聚焦于将可观测性转化为可靠性的人员体系,介绍如何定义能指导决策的 SLO、构建可扩展团队知识的运行手册、设计能推动改进的结构化事后分析,以及如何将这些实践融入工程文化。
本文介绍了在管理Kafka集群时常见的问题及其解决方案,帮助运维人员快速定位和解决Kafka相关故障。
Elasticsearch 本身是一款复杂的软件,而当你启动多个实例以形成集群时,其复杂性会进一步增加。这种复杂性伴随着出现问题的风险。在本节课中,我们将探讨一些你在 Elasticsearch 使用过程中可能会遇到的常见问题。
这是来自 NetFlix 的 CORE 团队的 SRE 工程师 Hank Jacobs 分享的 NetFlix SRE 实践,介绍了 NetFlix CORE 团队的职责、工作方式以及他们如何确保 Netflix 服务的稳定性和可靠性。
想要在 SRE 职业生涯中实现工资翻倍?本文将介绍 SRE 需要掌握的关键能力,从硬核技术到跨团队协作,帮助你在竞争中脱颖而出。
介绍微软 Azure SRE Agent 的能力与工作方式,涵盖事件响应、日志和指标分析、根因定位、安全检查与自动止损等场景。
在 Google 工作时学到的关于复杂系统的经验和处理方法。
SRE (站点可靠性工程)是一种将运维问题视为软件问题的方法。本文介绍了 SRE 的七项原则,帮助运维人员转型为 SRE 专家。
本文详细介绍了 SRE 最应该监控的指标,通过引入 Google 4 Golden Signals、RED、USE 等方法论,并配合 Prometheus 配置说明,全面梳理讲解了各类关键指标的定义、计算方法和应用场景,帮助读者深入理解 SRE 监控的核心要素。这些知识是算是 SRE 的必备知识了。
什么样的项目,或者说项目达到什么标准,可由运维人员来共担稳定性?本文从可用性、性能、可观测性、SOP 等方面,给出一些建议。
运维这个工作岗位,作为业务背后的团队,做的很多工作不容易被看到,容易被挑战工作的价值,本文尝试来聊一下这个话题,看看运维工作应该侧重在哪些方向
探索相关术语定义以及 SLA、SLO 和 SLI 如何帮助有效监控和维护系统性能。
浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路
远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求
我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?
SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!
不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出
SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论