AI 会替代运维老司机吗?五类产品形态重塑 SRE 与 AIOps
AI 短期不会直接替代运维岗位,但会优先替代依赖个人经验、上下文记忆和人工协同的工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态,分析 AI 时代运维体系的演进方向。
汇总 Flashcat 博客中归属于 快猫点评 分类的文章,方便按内容类型连续阅读产品实践、客户案例和可观测性方法。
AI 短期不会直接替代运维岗位,但会优先替代依赖个人经验、上下文记忆和人工协同的工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态,分析 AI 时代运维体系的演进方向。
非 Google 公司如何采用 SRE 实践:从 SRE 团队组建、成熟度模型、SLI/SLO/SLA 实践到监控自动化,一步步落地站点可靠性工程,提升系统性能和可靠性。
什么是可观测性?相比传统监控,可观测性是“新瓶装旧酒”吗?他们有哪些区别和联系,从传统监控到可观测性,Gap 到底有多大?
如果您之前对可观测性重要性,益处,以及组成不甚了解,本文是一个合适的指南手册
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
优秀的运维和架构师应该是怎样的?运维能给人工智能时代带来价值吗?
稳定性体系建设是一个巨大的话题,实际上不止是运维人员关注,整个技术体系都非常关注,这个话题慢慢聊,今天我们先着眼在运维视角,看看如何构建稳定性体系。
通过几个方面来建设稳定性体系:建立全面的度量体系、重点加强信息协同/让数据说人话、特定场景下的智能辅助决策