业务故障不是 CPU 高:为什么 SRE 需要北极星指标
SRE 需要从业务健康出发识别真故障,再沿着北极星、过程指标、灭火图、日志、Trace 和事件墙定位技术根因。
汇总 Flashcat 博客中与 SRE 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
SRE 需要从业务健康出发识别真故障,再沿着北极星、过程指标、灭火图、日志、Trace 和事件墙定位技术根因。
全栈可观测不等于排障路径清晰。真正有价值的平台要把入口、对象、上下文和下钻路径组织起来,减少事故现场翻页面和手工拼线索。
事件墙把发布、配置、运行时、告警和运营事件放回同一时间窗口,帮助团队从指标异常快速追到变化证据。
OpenTelemetry 让指标、日志和链路具备统一上下文,但要真正降低 MTTR,还需要对象模型、下钻规则、事件上下文和责任边界。
健康的 On-call 不是排满值班表,而是同时治理告警质量、值班负载、升级路径、休息补偿和复盘改进,让正确的人处理正确的问题。
基于 Google Cloud Gemini Cloud Assist investigations 的公开资料,分析其 AI RCA 如何用 observations、hypotheses、start time、App Hub、revision 和 support handoff 把根因分析做成可验证的事故调查流程。
可观测性的核心价值正在从采集和展示指标、日志、链路,转向把异常信号组织成可执行的故障判断路径,帮助 SRE 缩短从数据到决策的距离。
SRE 的疲惫不在于监控不足,而在于告警、观测数据、响应流程和复盘没有形成从信号到行动的闭环。
从责任边界、主备机制、轮换周期、服务日历、通知偏好、调班与升级策略等角度,系统梳理 SRE On-call 值班表设计方法。
监控系统本身也会失效。本文介绍如何用 catpaw 给 Prometheus、Nightingale、Alertmanager 增加独立外部哨兵,从 systemd、进程、HTTP、磁盘、日志、时间同步和 MCP 等角度降低监控失声与值班盲飞风险。
AI 短期不会直接替代运维岗位,但会优先替代依赖个人经验、上下文记忆和人工协同的工作方式。本文从调查型 Agent、协同控制台、自动化护栏、平台工程和组织记忆系统五类产品形态,分析 AI 时代运维体系的演进方向。
非 Google 公司如何采用 SRE 实践:从 SRE 团队组建、成熟度模型、SLI/SLO/SLA 实践到监控自动化,一步步落地站点可靠性工程,提升系统性能和可靠性。
SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。通过自动化工具和软件工程方法,SRE 确保系统增长时运维人力不会线性增加,实现运维的敏捷来支撑研发的敏捷。
本文介绍了如何识别和排查 Java 应用中的内存泄漏和内存溢出错误,提供了实用的技巧和工具,帮助工程师快速定位并解决内存相关问题。
本文分享了首次担任专家级 SRE 的一些建议,涵盖了思维模式的转变、团队协作、技术领导力等方面,帮助新晋专家级 SRE 更好地适应角色并推动系统可靠性。
通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线,提升可观测性和故障排查效率。
本文聚焦于将可观测性转化为可靠性的人员体系,介绍如何定义能指导决策的 SLO、构建可扩展团队知识的运行手册、设计能推动改进的结构化事后分析,以及如何将这些实践融入工程文化。
本文介绍了在管理Kafka集群时常见的问题及其解决方案,帮助运维人员快速定位和解决Kafka相关故障。
Elasticsearch 本身是一款复杂的软件,而当你启动多个实例以形成集群时,其复杂性会进一步增加。这种复杂性伴随着出现问题的风险。在本节课中,我们将探讨一些你在 Elasticsearch 使用过程中可能会遇到的常见问题。
这是来自 NetFlix 的 CORE 团队的 SRE 工程师 Hank Jacobs 分享的 NetFlix SRE 实践,介绍了 NetFlix CORE 团队的职责、工作方式以及他们如何确保 Netflix 服务的稳定性和可靠性。