包含标签 SRE 的文章

SRE接手新业务首要工作:运维准入测试

如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。

阮一峰的网络日志:运维的未来是平台工程

转载自阮一峰的网络日志。老规矩,兼听则明,偏信则暗,听百家之言,自我决策。

快猫助力六分科技,打造统一观测平台,构建全局稳定性视图

北京六分科技有限公司,成立于2018年3月,是 GNSS 高精度定位服务产品专业提供商。快猫星云作为六分科技的可观测性解决方案供应商,所开发的Flashcat平台很好的赋能了六分科技的业务和技术团队,得到了六分科技的高度认可。

终结这个话题:运维岗位真的不能干了么?

昨晚马驰和来炜在线交流,话题是运维岗位真的不能干了么?我作为主持人,既是点火的又是拉架的,听两位老兵分享了一些他们各自的观点,受益匪浅。今天抓紧记录一下,以免忘记,算是对昨天直播的一个复盘。

科普篇:运维稳定性体系建设

稳定性体系建设是一个巨大的话题,实际上不止是运维人员关注,整个技术体系都非常关注,这个话题慢慢聊,今天我们先着眼在运维视角,看看如何构建稳定性体系。

运维百家讲坛第5期:度小满陈存利 - 20年老“司令”聊运维、绩效、成长

这一期我们邀请到的是陈存利,度小满运维总监,20多年的职业生涯中绝大部分时间在互联网领域。在百度运维部期间由于带队风格过硬,兄弟团队称其为”陈司令”。今天我们请到“陈司令”来聊聊他的观点。

运维百家讲坛第4期:又拍云邵海杨 - 25年Linux老兵聊DevOps八荣八耻

这一期我们邀请到的是又拍云科技的邵海杨,一个25年的Linux老炮,邵总醉心技术,一步一步往上走,是普通运维人员的典型成长路径,希望今天的采访可以对你有那么一些启发!

运维百家讲坛第3期:快猫来炜 - 如何端好运维的饭碗

讲坛第1期《井源 - 运维几何》和前段时间马驰的《是时候让运维集体下岗了》在业界引起广泛讨论,运维岗位真的没有前途了吗?如何把饭碗端稳?这一期,我们采访了快猫星云的来炜,来炜是运维破圈创业人士,既然能创业,一定是在行业内有很深的积累的,他会怎么看待这个问题?让我们一起来听一种新的声音!

运维百家讲坛第2期:作业帮聂安 - 运维如何转型,听听作业帮的OPaS思路

第1期央请井老板发表了很多有趣的观点,有人留言说是运维劝退指南,哈哈,这一期的嘉宾,观点会有不同,请大家抱着开放的心态,听百家之言,自己做职业、人生规划。所谓兼听则明,偏信则暗,如果只听自己顺耳的,大概率不会有深度思考碰撞,憾事也。

CTO药方:如何搭建运维/SRE能力

近期有很多文章在探讨运维岗位去留的问题,我主持的SRETalk公众号里也发了多个运维总监的观点,个人也和行业内挺多人做了交流,有些许小小的想法,记录下来,供各位CTO/CIO参考,作为运维/SRE的你如果觉得迷茫,也推荐你仔细读一下本文

秘籍:分析Linux性能问题!只要一分钟!

这是Netflix在Medium发表的一篇博客,时间是2015年,影响力巨大,特地翻译了一下放到快猫站点上,以飨读者。核心是讲解如何在一分钟内通过各类命令分析Linux性能问题

SRE解决的核心问题究竟是什么?

【摘要】SRE 既做研发也做运维,那么SRE 解决的核心问题究竟是什么? 【作者】汪照辉,中国银河证券架构师,专注于容器云、微服务、DevOps、数据治理、数字化转型等领域,对相关技术有独特的理解和见解。擅长于软件规划和设计,提出的“平台融合”的观点越来越得到认同和事实证明。发表了众多技术文章探讨容器平台建设、微服务技术、DevOps、数字化转型、数据治理、中台建设等内容,受到了广泛关注和肯定。个人微信公众号:技术思维创新 本文转自:twt企业IT社区 SRE 既做研发也做运维,并且要求研发的时间不低于 50% ,但 SRE 是偏运维的,包括 SRE 研发的大部分工作也是和运维相关的。这也让我有了个疑问, SRE 解决的核心问题是什么?

网站可靠性工程师

众所周知,开发和IT运营之间因为屁股决定脑袋,存在巨大的鸿沟,而网站可靠性工程师(SRE)在开发和IT运营之间建立了一座桥梁,SRE会承担原本属于IT运营的一部分工作内容,不过SRE的工作方式和传统的IT运营很不相同,SRE有很强的研发能力,他们通过创建可扩展和可靠的软件系统来解决问题。

运维百家讲坛第1期:井源 - 运维几何

井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《[运维百家讲坛](https://mp.weixin.qq.com/s/Y4rIfV4_7MuYigLNNrtifg)》第 1 期,开讲!

手把手融汇贯通网络流量分析

我们生活在一个数据大爆炸的时代,网络是互联网的载体,网络流量分析也是技术人员日常最依赖的troubleshooting手段,本文手把手讲解网络流量捕获和分析的方方面面

二十年里12个开源监控工具大对比

过去20年里,都涌现出来了哪些典型的优秀开源监控工具,他们的优缺点如何?

服务器生命周期管理

如果您的业务还没有使用公有云,那么服务器的完整生命周期管理,是至关重要和绕不过的一个话题,本文介绍了自建IDC环境下服务器的生命周期管理。

站点可靠性运维综述

站点可靠性运维更贴近业务,可以说是业务的大管家,本文主要介绍站点可靠性运维工作的定位,以及相关的问题和积累的经验

服务挂了,学费交了,掌握这6点就值了

服务一次次挂掉,技术团队一次次应急响应、一次次复盘,我们从中学到了什么?

建立云原生组织的8个要素

如何建立云原生组织,有8个要素分享给大家,分别是:平台团队、SRE团队、应用开发团队、Business KPIs、SLOs、DevOps、GitOps、IaC