SRE - 快猫星云Flashcat

在 Kubernetes 中构建统一的 OpenTelemetry 流水线

译文 · 2025-11-17

通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线，提升可观测性和故障排查效率。

SRE 实践真经：可观测性、SLOs、Runbooks 与事故报告

fatihkoc · 2025-11-14

本文聚焦于将可观测性转化为可靠性的人员体系，介绍如何定义能指导决策的 SLO、构建可扩展团队知识的运行手册、设计能推动改进的结构化事后分析，以及如何将这些实践融入工程文化。

Kafka集群故障排除：常见问题及解决方案

Sean Riley · 2025-10-22

梳理 Kafka 集群常见性能与稳定性调优项：分区数量、ISR 滞后、网络与 I/O 线程、生产者压缩、acks、消费者 fetch、socket buffer、KRaft 超时、log.dirs 和复制因子。

Elasticsearch 常见问题排查方法

译文 · 2025-10-21

系统梳理 Elasticsearch 常见问题排查方法：备份快照、日志权限、Bootstrap 检查、Discovery 配置、集群组建、red/yellow/green 状态、分片分配和快照恢复。

NetFlix SRE 实践

Hank Jacobs · 2025-08-11

基于 Netflix CORE 团队 SRE 工程师 Hank Jacobs 的分享，梳理 Netflix 中心化可靠性团队如何承担业务 KPI 监控、事件管理、事件后分析、可靠性咨询和系统性风险识别。

掌握这些能力，工资翻倍不成问题

快猫运营团队 · 2025-07-16

SRE 想提升职业竞争力，不能只重复日常运维工作，而要系统提升底层技术、故障响应、架构规划、协作沟通和业务理解能力。

大厂出手了，微软推出 SRE agent 做故障定位

译文 · 2025-06-06

介绍微软 Azure SRE Agent 的能力与工作方式，涵盖 Azure 资源上下文、事件响应、日志和指标分析、根因定位、安全检查、人工批准后的止损动作以及 GitHub 闭环。

如何处理复杂系统 - 我在 Google 工作时学到的

Teiva Harsanyi · 2025-05-26

本文翻译并整理 Teiva Harsanyi 关于复杂系统的经验：区分 complicated 与 complex，解释涌现行为、延迟后果、局部优化、迟滞和非线性，并总结可逆决策、全局指标、受控发布、可观测性、模拟、机器学习和团队协作等处理方法。

运维想转SRE？先了解这7个原则

译文 · 2025-05-26

介绍 SRE（站点可靠性工程）的七项原则：拥抱风险、SLO、消除琐事、监控、自动化、发布工程和简洁性，帮助运维人员理解从传统运维转向 SRE 的核心方法。

SRE 最应该监控的四大黄金指标

Ayooluwa Isaiah · 2025-04-28

系统介绍 SRE 四大黄金指标 Latency、Traffic、Errors、Saturation，并结合 RED、USE 与 Prometheus 示例说明如何监控服务健康、设置告警和支撑 SLO。

什么样的项目，可由运维负责稳定性？

巴辉特 · 2025-04-07

项目是否可由运维共担稳定性，应先通过运维准入标准。建议从可用性、性能、可观测性和 SOP 四个方面评估，未达到标准的项目可以让运维介入，但不应让运维单独负责稳定性。

运维的价值为何经常被挑战？哪些工作更有价值？

秦晓辉 · 2025-03-25

运维价值经常被挑战，根因通常在于研发与运维的边界、平台化能力、生产规范和业务技术支持没有被说清楚。

实施 SLA、SLO 和 SLI：SRE 实用指南

Karthigayan Devan · 2024-07-23

面向 SRE 实践解释 SLA、SLO、SLI 和 Error Budget 的关系，说明如何为生产服务选择可衡量目标、落地监控指标并避免常见误区。

运维工程师（SRE）必须掌握的技能有哪些？

巴辉特 · 2024-07-18

运维工程师和 SRE 需要同时具备个人素养、职业素养、基础技术、业务技术、横向技术和体系思考能力，才能从执行岗位成长为高阶工程角色。

排查 502 Bad Gateway 的常见思路

巴辉特 · 2024-04-24

从 SRE 视角梳理 502 Bad Gateway 排查路径：用 Chrome 开发者工具确认接口，用 cURL 绕过 Nginx 验证后端，结合 Nginx 日志、超时配置、容器日志和 OOM 线索定位问题。

写了一个 SRE 调试工具，类似一个小木马

巴辉特 · 2024-04-10

gohttpd 是一个面向 SRE 临时调试场景的小型 HTTP 工具，可用于受控环境下远程执行命令、上传下载文件、打印 HTTP 请求和调试 Webhook。

Google SRE 的 on-call 方法和工具

Flashcat · 2023-12-26

从 Google SRE 的 OnCall 方法、减少琐事原则和 Outalator 工具出发，分析国内团队落地 OnCall 时需要补齐的文化、机制、工具、指标和产品能力。

最佳实践：稳定性保障8个锦囊，建议收藏！

快猫技术 · 2023-10-09

稳定性保障的关键，是把业务可用性目标、故障发现定位止损、冗余切换、降级熔断、限流、弹性伸缩、灰度发布和云服务治理串成可执行闭环。本文总结 8 个稳定性保障实践，适合 SRE、运维和研发团队用于故障响应与可靠性建设。

SRE Google 运维解密读书笔记三：服务质量目标

秦晓辉@快猫星云 · 2023-05-26

《Google 运维解密》读书笔记第三篇：解释 SLI、SLO、SLA 的区别，SRE 在 SLO 制定中的职责，以及如何选择用户体验指标、长尾延迟和业务北极星指标。

SRE Google 运维解密读书笔记二：拥抱风险

秦晓辉@快猫星云 · 2023-05-25

《Google 运维解密》读书笔记第二篇：解释为什么 SRE 要拥抱风险，如何用可用性、SLO、错误预算和 ROI 在可靠性成本与业务迭代之间做权衡。

标签：SRE

SRE 相关文章