SRE解决的核心问题究竟是什么?
SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。通过自动化工具和软件工程方法,SRE 确保系统增长时运维人力不会线性增加,实现运维的敏捷来支撑研发的敏捷。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。通过自动化工具和软件工程方法,SRE 确保系统增长时运维人力不会线性增加,实现运维的敏捷来支撑研发的敏捷。
解读微软 Pingmesh 论文:一套大规模数据中心网络延迟监控系统,通过 Controller-Agent 架构实现每天 2000 亿次 ping 探测,用于网络故障判定、SLA 追踪和静默丢包检测。
非 Google 公司如何采用 SRE 实践:从 SRE 团队组建、成熟度模型、SLI/SLO/SLA 实践到监控自动化,一步步落地站点可靠性工程,提升系统性能和可靠性。
使用 eBPF 实现云网络可观测性:对比 Ring Buffer、Hash Map、Array 等数据结构在流量指标收集中的性能差异,分析 Skydive、Cilium、Falco 等开源工具的实现方案。
OpenTelemetry 入门指南:介绍 OTel 的 API、SDK、Collector 组件,以及 Traces、Metrics、Logs 三大可观测性支柱,通过购物车示例应用演示分布式链路追踪实现。
OpenTelemetry 埋点详解:讲解手动埋点创建 Span、设置属性和事件,以及使用 Flask、MySQL 自动埋点零代码获取链路追踪数据,快速实现应用可观测性。
OpenTelemetry SDK 导出详解:介绍 TracerProvider 链路追踪生产者、Resource 资源元数据、OTLP Exporter 导出器的配置,实现遥测数据从应用到收集器的传输。
OpenTelemetry Collector 详解:介绍接收器、处理器、导出器组件,DaemonSet 和 Sidecar 两种 Kubernetes 部署方式,以及使用 ocb 工具构建自定义收集器分发版。
OpenTelemetry 传播与行李机制详解:通过 Propagation 传递 TraceID 和 SpanID 实现分布式链路追踪,使用 Baggage 在微服务间传递自定义上下文数据。
OpenTelemetry 生态系统概览:作为 CNCF 第二活跃项目,介绍 OTel 官网、Slack 社区、GitHub 仓库组织结构以及 Registry 注册表,帮助开发者快速入门并参与社区。
VSCode 插件 insertisodate:一键插入 ISO 8601 格式时间,专为 Hugo 博客写作设计,自动填充 date 和 lastmod 字段,提升 SEO 友好度和写作效率。
详解 Prometheus 实验性 info 函数,告别复杂的 group_left join 语法实现标签 Enrichment。info 函数简化 PromQL 写法,并解决标签变化导致的 Churn Problem 和 many-to-many 匹配问题。
记录 Categraf http_response 插件报错 TLS handshake failure 的排查过程。分析 IPv4/IPv6 入口 TLS 配置差异、Go 1.24 默认加密套件变更导致的握手失败,提供 tls_cipher_suites 配置方案解决兼容性问题。
本文介绍如何排查 Flashduty monitor 监控告警时,发现数据不符合预期的场景,帮助用户定位和解决问题。
本文详细介绍了夜莺监控(Nightingale)中机器告警配置的多种方式,包括机器存活监控和普通指标监控,帮助用户更好地管理和监控其基础设施。
本文汇总了夜莺监控(Nightingale)在使用过程中常见的问题及其解决方案,帮助用户更好地理解和使用夜莺监控,实现高效的多数据源告警管理。
在高性能计算领域,我们习惯于在代码、算法或基础设施中寻找瓶颈。但有时,问题可能出现在意想不到的地方,比如 JVM 的垃圾回收日志记录。本文讲述了一个因日志写入导致的 JVM 停顿问题及其解决方案。
本文介绍了如何识别和排查 Java 应用中的内存泄漏和内存溢出错误,提供了实用的技巧和工具,帮助工程师快速定位并解决内存相关问题。
本文分享了首次担任专家级 SRE 的一些建议,涵盖了思维模式的转变、团队协作、技术领导力等方面,帮助新晋专家级 SRE 更好地适应角色并推动系统可靠性。
日志记录不是随意的流水账,而是有目的的证据收集。每一条日志都应为未来的你和你的团队提供清晰、有用的信息,帮助你们理解系统的运行状态、排查问题并优化性能。通过结构化日志、添加上下文信息、明确日志级别,并善用现代工具进行过滤和控制,你可以打造一个高效、可靠的日志记录体系 —— 让日志真正成为可观测性实践中的宝贵资产,而非无用信息的堆积。