运维百家讲坛第1期：井源 - 运维几何

秦晓辉&井源 2023-01-26 06:06:10

编者著：井老板是我11年入行加入百度时的团队大老板，骨灰级老炮，逮着这个机会不容易，把业内常见问题都问了个遍，以飨读者。井老板生性洒脱，嬉笑怒骂皆成文章，道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期，开讲！

嘉宾介绍

运维百家讲坛第1期：井源 - 运维几何 - 图1

井源，左一，前百度运维架构师，前小米运维负责人，前美菜CIO

采访内容

有些运维人员反映公司对运维的价值所知甚少，您当年是怎么给公司讲清楚运维的价值的呢？

首先需要和公司讲清楚运维的岗位职责（运维是干什么、产出什么）和关键指标（度量产出成果），比如工作围绕稳定、安全、高效等方向展开，开展了哪些运维项目，如何主动推进关键指标的达成。

关键指标，不仅仅包含服务可用性，还有比如服务器资源达标率、服务故障数据（故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率）、服务安全指标、服务资源到位时长等等。

比如搭建一套完善的监控系统：

监控服务器资源使用率，找出使用率不达标的服务器进行回收或资源重新分配，通过虚拟化、容器化等手段提升资源使用率
梳理告警阈值，规范P0、P1、P2、P3告警级别；监控系统提供告警合并、智能定位建议，提供活跃告警聚合，提供时间纬度的告警分析。方便更快的告警响应和故障定位，提升故障响应时间、故障恢复时间等
服务的告警和预案梳理，缩短平均故障恢复时间，提升故障告警覆盖率

业内有观点认为云和Kubernetes这样的基础设施的崛起会让运维岗位逐渐消亡，您是怎么看待这样的观点呢？

很多年前我们运维团队的口号是NO Ops，博客是noops.me。

很早就说过，运维岗位会逐渐消亡，或者部分工作职责会消亡。拿系统运维来举例，以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN工程师、机房运维工程师等小20人的团队。后来通过引入公有云，团队只有4个人，云资源管理员1人、CDN调度工程师1人、网络工程师1人、内核工程师1人，他们只需要管理和调度好第三方公司提供的资源和服务即可。

随着K8s和云的普及，以及研发代码工程化的不断成熟，运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下，为了节省运维人力，提升部署效率，二、三级服务的部署已经交给研发自助完成。

随着科技的发展，时代的变化，一个岗位的消亡是很正常的事情，及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里，您觉得运维人员应该做出哪些调整才能更适合当下的人才需求？

在上云的大环境下，运维工程师更应该面向业务、面向架构，拓展自己的业务范围，成为保障业务稳定的关键人才。如果还是和以前一样，仅仅只关注监控报警，只负责服务部署变更，那么势必会被淘汰。

另一方面，可以往专精的方向走，成为某个领域的专家（监控、大数据、K8s、数据库等等），走运维研发专家的方向。

人生的建议，多寻找一些副业，运维工作只是生活的一小部分。

AIOps热炒了几年，但是最近明显声量变小了，您觉得企业现阶段应该落地AIOps么？应该注意哪些问题？

就拿智能监控为例，看到了很多文案说要通过AI预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中，如果真能通过历史数据，实现故障预测。那还不如去做地震预测，有几千年的地震数据积累，能够产生很大的社会价值。

做AIOps的前提，是真的懂AI，清楚机器学习和神经网络的原理。有多少人工才有多少智能，AIOps才能不是一个口号。

chatGPT这样的AI能力您觉得未来是否有可能解决运维行业的问题？

比如在故障管理中，根据故障的设备、数据、描述，通过他山之石可攻玉、历史故障库等等，给出故障可能的辅助建议(suggestbot)

BTW，如果你已经可以玩转chatGPT了，把这个技术投入到其他更能产生价值的领域吧，别老在运维这个领域耗着……

业务程序的部署，到底应该交给研发来做还是应该交给运维来做，在很多公司争论不休，您是怎么看待这个问题呢？

之前提到过，我们二、三级的服务是完全由研发去做，一级服务是运维和研发轮流去做，主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署，更多是规范线上环境，规范服务部署方式，从而更好的研发部署系统，掌控所负责的服务架构。

安全问题、流程问题，完全可以通过部署系统去解决。运维就不要守着这个没任何价值，没任何沉淀的工作不放了。

您最想对（运维）行业说的一句话是？为什么？

“物理学没有不存在，只是我们认为的物理学，可能不存在。” 运维行业可能也不存在了，多少运维人的梦想是AIOps、NOOps，要么自己去干掉这个行业，要么在这个行业被干掉。

工具选型这块，到底是自研，还是使用开源，还是使用商业产品，是如何抉择的？

有能力有时间就使用开源，能力一般时间有限就使用商业产品。有钱有闲还很自负的话，可以尝试下自研。

您所在的公司是否也是多云架构？您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建？

我们是多云架构。专线或者数据传输的能力，这个需要自建。基于多云之上的公共能力也可以自建，比如监控系统、数据备份系统、部署系统、微服务核心组件等，其他的交给云厂商就好了。

您印象最深的一次故障是什么？对您有何启示？

运维这么多年，遇到的诡异故障太多了，root cause让你根本想象不到。只能说，故障很难避免，只能设法减少故障的频率、影响面和影响时间。

所以你的绩效不是故障次数和故障级别，而是故障影响面、故障响应、恢复时间等。

面对当下快速发展的基础技术，您对给刚入行和入行已久的运维人员，分别有什么职业规划的建议吗？

比较偏激哈~刚入行的，建议尽快转行！入行已久的，转行技术相对困难，已经打上了深深的运维烙印。我见过太多运维人员转行其他技术，多数都是运维研发、运维产品经理的岗位，还是找一下副业吧。

您觉得传统运维和SRE的区别是什么？您的团队做出这样的转型，其背后的思考是？

这都2023年了，聊这个话题就跟互联网运维弄个NOC监控值班一样，开倒车。

如果现在还在考虑要不要转型SRE、怎么转型SRE、SRE的变化这些问题，就跟5g时代，还在考虑用2g，还是3g……都会被时代所淘汰。