包含标签 SRE 的文章

SRE Google 运维解密读书笔记三:服务质量目标

SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!

SRE Google 运维解密读书笔记二:拥抱风险

不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出

SRE Google 运维解密读书笔记一:SRE 方法论概述

SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论

可观测性三支柱?远不止此!

日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽

如何采用 SRE 实践(当你不是 Google 时)

Site reliability engineering (SRE) 并不是一个新的术语或实践。在把 SRE 定义为一个职位名称之前,把软件工程技能和原则应用到运维领域早就已经付诸实践了。在组织层面落地 SRE,用更加积极主动的方式来构建和维护软件,可以推动一些方面的长期成功,比如提升运维效率、数据驱动的路线规划、整体稳定性达成。正是由于 SRE 的广泛采用,我们才得以获得这些优势。

LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

LinkedIn 有几十万机器,每天执行 15000+ 个任务,任务下发使用的是 Salt,但是做了很多改造。

面试 LinkedIn SRE 是一种怎样的体验?

LinkedIn 作为世界前十大流量的网站,为海量的求职者和雇主提供了建立连接的机会。维护如此庞大的网站的稳定运行,SRE 功不可没,LinkedIn 会如何招聘 SRE 工程师呢?

SLICK: Facebook基于SLO的可靠性保障实践

定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability

SRE们,请不要小看了 排班OnCall

Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。

SRE 简介,和 DevOps 的关系和异同

SRE 是什么?SRE 和 DevOps 是一个东西吗?或者说 SRE 和 DevOps 的关系和异同如何?

Uber实践:运维大型分布式系统的一些心得

在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的工作。规划系统如何处理10x / 100x流量的增加,确保数据持久,面对硬件故障处理等等,这些都需要智慧。不管怎样,运维大型分布式系统对我来说是一次令人大开眼界的体验。

稳定性体系建设白皮书

SRE 是 Site Reliability Engineering,网站稳定性工程,具体怎么做这个网站稳定性工程?有没有什么方法论?有没有什么工具?白皮书来了

运维百家讲坛第7期:王明松 - 自我革命的“王四条”是怎样练成的

这一期我们邀请到的是王明松,王老板针对云原生应用实践,提出“王四条”,在业内广受认可。从19年开始,王老板所在公司的所有IDC业务就全部搬到了云上,体量还不小,SRE团队却很小,有点NetFlix的味道。这一讲,我们一起了解一下资深云上运维到底是怎么玩的。

Netflix SRE 实践概述

NetFlix 的 SRE 实践是如何的?大家应该很好奇吧。NetFlix 全部采用 aws 构建他们的流媒体服务,体量巨大,他们的 SRE 文化是什么?主要干什么事情?且听本文分解。

运维百家讲坛第6期:途游邹轶 - 中小公司的运维怎么做?

这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。

SRE接手新业务首要工作:运维准入测试

如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。

阮一峰的网络日志:运维的未来是平台工程

转载自阮一峰的网络日志。老规矩,兼听则明,偏信则暗,听百家之言,自我决策。

快猫助力六分科技,打造统一观测平台,构建全局稳定性视图

北京六分科技有限公司,成立于2018年3月,是 GNSS 高精度定位服务产品专业提供商。快猫星云作为六分科技的可观测性解决方案供应商,所开发的Flashcat平台很好的赋能了六分科技的业务和技术团队,得到了六分科技的高度认可。

终结这个话题:运维岗位真的不能干了么?

昨晚马驰和来炜在线交流,话题是运维岗位真的不能干了么?我作为主持人,既是点火的又是拉架的,听两位老兵分享了一些他们各自的观点,受益匪浅。今天抓紧记录一下,以免忘记,算是对昨天直播的一个复盘。

科普篇:运维稳定性体系建设

稳定性体系建设是一个巨大的话题,实际上不止是运维人员关注,整个技术体系都非常关注,这个话题慢慢聊,今天我们先着眼在运维视角,看看如何构建稳定性体系。

运维百家讲坛第5期:度小满陈存利 - 20年老“司令”聊运维、绩效、成长

这一期我们邀请到的是陈存利,度小满运维总监,20多年的职业生涯中绝大部分时间在互联网领域。在百度运维部期间由于带队风格过硬,兄弟团队称其为”陈司令”。今天我们请到“陈司令”来聊聊他的观点。

运维百家讲坛第4期:又拍云邵海杨 - 25年Linux老兵聊DevOps八荣八耻

这一期我们邀请到的是又拍云科技的邵海杨,一个25年的Linux老炮,邵总醉心技术,一步一步往上走,是普通运维人员的典型成长路径,希望今天的采访可以对你有那么一些启发!

运维百家讲坛第3期:快猫来炜 - 如何端好运维的饭碗

讲坛第1期《井源 - 运维几何》和前段时间马驰的《是时候让运维集体下岗了》在业界引起广泛讨论,运维岗位真的没有前途了吗?如何把饭碗端稳?这一期,我们采访了快猫星云的来炜,来炜是运维破圈创业人士,既然能创业,一定是在行业内有很深的积累的,他会怎么看待这个问题?让我们一起来听一种新的声音!

运维百家讲坛第2期:作业帮聂安 - 运维如何转型,听听作业帮的OPaS思路

第1期央请井老板发表了很多有趣的观点,有人留言说是运维劝退指南,哈哈,这一期的嘉宾,观点会有不同,请大家抱着开放的心态,听百家之言,自己做职业、人生规划。所谓兼听则明,偏信则暗,如果只听自己顺耳的,大概率不会有深度思考碰撞,憾事也。

CTO药方:如何搭建运维/SRE能力

近期有很多文章在探讨运维岗位去留的问题,我主持的SRETalk公众号里也发了多个运维总监的观点,个人也和行业内挺多人做了交流,有些许小小的想法,记录下来,供各位CTO/CIO参考,作为运维/SRE的你如果觉得迷茫,也推荐你仔细读一下本文

秘籍:分析Linux性能问题!只要一分钟!

这是Netflix在Medium发表的一篇博客,时间是2015年,影响力巨大,特地翻译了一下放到快猫站点上,以飨读者。核心是讲解如何在一分钟内通过各类命令分析Linux性能问题

SRE解决的核心问题究竟是什么?

【摘要】SRE 既做研发也做运维,那么SRE 解决的核心问题究竟是什么? 【作者】汪照辉,中国银河证券架构师,专注于容器云、微服务、DevOps、数据治理、数字化转型等领域,对相关技术有独特的理解和见解。擅长于软件规划和设计,提出的“平台融合”的观点越来越得到认同和事实证明。发表了众多技术文章探讨容器平台建设、微服务技术、DevOps、数字化转型、数据治理、中台建设等内容,受到了广泛关注和肯定。个人微信公众号:技术思维创新 本文转自:twt企业IT社区 SRE 既做研发也做运维,并且要求研发的时间不低于 50% ,但 SRE 是偏运维的,包括 SRE 研发的大部分工作也是和运维相关的。这也让我有了个疑问, SRE 解决的核心问题是什么?

网站可靠性工程师

众所周知,开发和IT运营之间因为屁股决定脑袋,存在巨大的鸿沟,而网站可靠性工程师(SRE)在开发和IT运营之间建立了一座桥梁,SRE会承担原本属于IT运营的一部分工作内容,不过SRE的工作方式和传统的IT运营很不相同,SRE有很强的研发能力,他们通过创建可扩展和可靠的软件系统来解决问题。

运维百家讲坛第1期:井源 - 运维几何

井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《[运维百家讲坛](https://mp.weixin.qq.com/s/Y4rIfV4_7MuYigLNNrtifg)》第 1 期,开讲!

手把手融汇贯通网络流量分析

我们生活在一个数据大爆炸的时代,网络是互联网的载体,网络流量分析也是技术人员日常最依赖的troubleshooting手段,本文手把手讲解网络流量捕获和分析的方方面面

二十年里12个开源监控工具大对比

过去20年里,都涌现出来了哪些典型的优秀开源监控工具,他们的优缺点如何?

服务器生命周期管理

如果您的业务还没有使用公有云,那么服务器的完整生命周期管理,是至关重要和绕不过的一个话题,本文介绍了自建IDC环境下服务器的生命周期管理。

站点可靠性运维综述

站点可靠性运维更贴近业务,可以说是业务的大管家,本文主要介绍站点可靠性运维工作的定位,以及相关的问题和积累的经验

服务挂了,学费交了,掌握这6点就值了

服务一次次挂掉,技术团队一次次应急响应、一次次复盘,我们从中学到了什么?

建立云原生组织的8个要素

如何建立云原生组织,有8个要素分享给大家,分别是:平台团队、SRE团队、应用开发团队、Business KPIs、SLOs、DevOps、GitOps、IaC