SRE们,请不要小看了 排班OnCall
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
汇总 Flashcat 博客中与 SRE 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
SRE 是什么?SRE 和 DevOps 是一个东西吗?或者说 SRE 和 DevOps 的关系和异同如何?
在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的工作。规划系统如何处理10x / 100x流量的增加,确保数据持久,面对硬件故障处理等等,这些都需要智慧。不管怎样,运维大型分布式系统对我来说是一次令人大开眼界的体验。
SRE 是 Site Reliability Engineering,网站稳定性工程,具体怎么做这个网站稳定性工程?有没有什么方法论?有没有什么工具?白皮书来了
这一期我们邀请到的是王明松,王老板针对云原生应用实践,提出“王四条”,在业内广受认可。从19年开始,王老板所在公司的所有IDC业务就全部搬到了云上,体量还不小,SRE团队却很小,有点NetFlix的味道。这一讲,我们一起了解一下资深云上运维到底是怎么玩的。
NetFlix 的 SRE 实践是如何的?大家应该很好奇吧。NetFlix 全部采用 aws 构建他们的流媒体服务,体量巨大,他们的 SRE 文化是什么?主要干什么事情?且听本文分解。
这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。
如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。
转载自阮一峰的网络日志。老规矩,兼听则明,偏信则暗,听百家之言,自我决策。
北京六分科技有限公司,成立于2018年3月,是 GNSS 高精度定位服务产品专业提供商。快猫星云作为六分科技的可观测性解决方案供应商,所开发的Flashcat平台很好的赋能了六分科技的业务和技术团队,得到了六分科技的高度认可。
昨晚马驰和来炜在线交流,话题是运维岗位真的不能干了么?我作为主持人,既是点火的又是拉架的,听两位老兵分享了一些他们各自的观点,受益匪浅。今天抓紧记录一下,以免忘记,算是对昨天直播的一个复盘。
稳定性体系建设是一个巨大的话题,实际上不止是运维人员关注,整个技术体系都非常关注,这个话题慢慢聊,今天我们先着眼在运维视角,看看如何构建稳定性体系。
这一期我们邀请到的是陈存利,度小满运维总监,20多年的职业生涯中绝大部分时间在互联网领域。在百度运维部期间由于带队风格过硬,兄弟团队称其为”陈司令”。今天我们请到“陈司令”来聊聊他的观点。
这一期我们邀请到的是又拍云科技的邵海杨,一个25年的Linux老炮,邵总醉心技术,一步一步往上走,是普通运维人员的典型成长路径,希望今天的采访可以对你有那么一些启发!
讲坛第1期《井源 - 运维几何》和前段时间马驰的《是时候让运维集体下岗了》在业界引起广泛讨论,运维岗位真的没有前途了吗?如何把饭碗端稳?这一期,我们采访了快猫星云的来炜,来炜是运维破圈创业人士,既然能创业,一定是在行业内有很深的积累的,他会怎么看待这个问题?让我们一起来听一种新的声音!
第1期央请井老板发表了很多有趣的观点,有人留言说是运维劝退指南,哈哈,这一期的嘉宾,观点会有不同,请大家抱着开放的心态,听百家之言,自己做职业、人生规划。所谓兼听则明,偏信则暗,如果只听自己顺耳的,大概率不会有深度思考碰撞,憾事也。
近期有很多文章在探讨运维岗位去留的问题,我主持的SRETalk公众号里也发了多个运维总监的观点,个人也和行业内挺多人做了交流,有些许小小的想法,记录下来,供各位CTO/CIO参考,作为运维/SRE的你如果觉得迷茫,也推荐你仔细读一下本文
这是Netflix在Medium发表的一篇博客,时间是2015年,影响力巨大,特地翻译了一下放到快猫站点上,以飨读者。核心是讲解如何在一分钟内通过各类命令分析Linux性能问题
众所周知,开发和IT运营之间因为屁股决定脑袋,存在巨大的鸿沟,而网站可靠性工程师(SRE)在开发和IT运营之间建立了一座桥梁,SRE会承担原本属于IT运营的一部分工作内容,不过SRE的工作方式和传统的IT运营很不相同,SRE有很强的研发能力,他们通过创建可扩展和可靠的软件系统来解决问题。
井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《[运维百家讲坛](https://mp.weixin.qq.com/s/Y4rIfV4_7MuYigLNNrtifg)》第 1 期,开讲!