掌握这些能力,工资翻倍不成问题
想要在 SRE 职业生涯中实现工资翻倍?本文将介绍 SRE 需要掌握的关键能力,从硬核技术到跨团队协作,帮助你在竞争中脱颖而出。
汇总 Flashcat 博客中与 SRE 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
想要在 SRE 职业生涯中实现工资翻倍?本文将介绍 SRE 需要掌握的关键能力,从硬核技术到跨团队协作,帮助你在竞争中脱颖而出。
介绍微软 Azure SRE Agent 的能力与工作方式,涵盖事件响应、日志和指标分析、根因定位、安全检查与自动止损等场景。
在 Google 工作时学到的关于复杂系统的经验和处理方法。
SRE (站点可靠性工程)是一种将运维问题视为软件问题的方法。本文介绍了 SRE 的七项原则,帮助运维人员转型为 SRE 专家。
本文详细介绍了 SRE 最应该监控的指标,通过引入 Google 4 Golden Signals、RED、USE 等方法论,并配合 Prometheus 配置说明,全面梳理讲解了各类关键指标的定义、计算方法和应用场景,帮助读者深入理解 SRE 监控的核心要素。这些知识是算是 SRE 的必备知识了。
什么样的项目,或者说项目达到什么标准,可由运维人员来共担稳定性?本文从可用性、性能、可观测性、SOP 等方面,给出一些建议。
运维这个工作岗位,作为业务背后的团队,做的很多工作不容易被看到,容易被挑战工作的价值,本文尝试来聊一下这个话题,看看运维工作应该侧重在哪些方向
探索相关术语定义以及 SLA、SLO 和 SLI 如何帮助有效监控和维护系统性能。
运维工程师、SRE,应该掌握哪些技能才算合格?
浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路
远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求
我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?
稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。
SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!
不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出
SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论
日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽
LinkedIn 有几十万机器,每天执行 15000+ 个任务,任务下发使用的是 Salt,但是做了很多改造。
LinkedIn 作为世界前十大流量的网站,为海量的求职者和雇主提供了建立连接的机会。维护如此庞大的网站的稳定运行,SRE 功不可没,LinkedIn 会如何招聘 SRE 工程师呢?
定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability