SRE

SRE 理念最初由 Google 提出并实践。随着互联网的快速发展和数字化转型的加速,SRE 的方法和理念在全球范围内的科技企业中得到了广泛的关注和应用。它的出现是为了解决大规模分布式系统的可靠性、稳定性和高效运维问题。

SRE 的全称是 Site Reliability Engineering,SRE 是一种以可靠性为核心的工程实践,它通过自动化、可观测性、稳定性优先和持续改进等原则,确保大规模分布式系统的可靠运行。SRE 团队需要具备扎实的技术技能和良好的软技能,与开发团队紧密合作,共同推动业务的发展。

运维工程师(SRE)必须掌握的技能有哪些?

运维工程师、SRE,应该掌握哪些技能才算合格?
运维工程师(SRE)必须掌握的技能有哪些?

SRE接手新业务首要工作:运维准入测试

如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。

稳定性保障8个锦囊,建议收藏!

稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。
稳定性保障8个锦囊,建议收藏!

如何采用 SRE 实践(当你不是 Google 时)

Site reliability engineering (SRE) 并不是一个新的术语或实践。在把 SRE 定义为一个职位名称之前,把软件工程技能和原则应用到运维领域早就已经付诸实践了。在组织层面落地 SRE,用更加积极主动的方式来构建和维护软件,可以推动一些方面的长期成功,比如提升运维效率、数据驱动的路线规划、整体稳定性达成。正是由于 SRE 的广泛采用,我们才得以获得这些优势。
如何采用 SRE 实践(当你不是 Google 时)

实施 SLA、SLO 和 SLI:SRE 实用指南

探索相关术语定义以及 SLA、SLO 和 SLI 如何帮助有效监控和维护系统性能。

排查 502 Bad Gateway 的常见思路

浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路
排查 502 Bad Gateway 的常见思路

写了一个 SRE 调试工具,类似一个小木马

远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求
写了一个 SRE 调试工具,类似一个小木马

Google SRE 的 on-call 方法和工具

我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?
Google SRE 的 on-call 方法和工具

SRE Google 运维解密读书笔记三:服务质量目标

SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!
SRE Google 运维解密读书笔记三:服务质量目标

SRE Google 运维解密读书笔记二:拥抱风险

不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出

SRE Google 运维解密读书笔记一:SRE 方法论概述

SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论

可观测性三支柱?远不止此!

日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽
可观测性三支柱?远不止此!

LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

LinkedIn 有几十万机器,每天执行 15000+ 个任务,任务下发使用的是 Salt,但是做了很多改造。
LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

面试 LinkedIn SRE 是一种怎样的体验?

LinkedIn 作为世界前十大流量的网站,为海量的求职者和雇主提供了建立连接的机会。维护如此庞大的网站的稳定运行,SRE 功不可没,LinkedIn 会如何招聘 SRE 工程师呢?
面试 LinkedIn SRE 是一种怎样的体验?

SLICK: Facebook基于SLO的可靠性保障实践

定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability
SLICK: Facebook基于SLO的可靠性保障实践

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat