从一个 Issue 谈 PID 1 与 Reaping 机制
深入解析 Categraf 僵尸进程治理方案。本文基于 GitHub Issue #1261,详细剖析了在容器化环境下 PID 1 导致的资源泄漏问题,并展示了如何通过 Go 语言实现 reapDaemon、利用 SIGCHLD 信号与 wait4 系统调用优雅地清理僵尸进程,提升系统稳定性
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
深入解析 Categraf 僵尸进程治理方案。本文基于 GitHub Issue #1261,详细剖析了在容器化环境下 PID 1 导致的资源泄漏问题,并展示了如何通过 Go 语言实现 reapDaemon、利用 SIGCHLD 信号与 wait4 系统调用优雅地清理僵尸进程,提升系统稳定性
具备产品思维的工程师是那些对产品本身有浓厚兴趣的开发人员。他们希望了解决策背后的原因,人们如何使用产品,并乐于参与产品决策。本文将探讨具备产品思维的工程师所共有的9个特质,并为所有工程师提供培养产品思维的建议。
深入解析 Kubernetes OOM 和 CPU Throttling 问题:理解 limits/requests 配置、内存过量分配、CPU shares 机制,以及如何通过 Prometheus 指标监控和预防资源耗尽导致的 Pod 被杀或限流。
Kubernetes 必备 10 个告警配置及处置方法:涵盖 CPU 过高、Kubelet 卷管理器故障、API Server 错误、节点资源压力、Pod 状态异常、ETCD leader 变更等关键场景的监控与排查命令。
Prometheus 14 点最佳实践:包括 USE/RED 方法论、标签基数控制、指标命名规范、告警症状而非原因、rate 和 sum 顺序等核心经验,来自 PromCon 2017 的经典分享。
SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。通过自动化工具和软件工程方法,SRE 确保系统增长时运维人力不会线性增加,实现运维的敏捷来支撑研发的敏捷。
解读微软 Pingmesh 论文:一套大规模数据中心网络延迟监控系统,通过 Controller-Agent 架构实现每天 2000 亿次 ping 探测,用于网络故障判定、SLA 追踪和静默丢包检测。
非 Google 公司如何采用 SRE 实践:从 SRE 团队组建、成熟度模型、SLI/SLO/SLA 实践到监控自动化,一步步落地站点可靠性工程,提升系统性能和可靠性。
使用 eBPF 实现云网络可观测性:对比 Ring Buffer、Hash Map、Array 等数据结构在流量指标收集中的性能差异,分析 Skydive、Cilium、Falco 等开源工具的实现方案。
OpenTelemetry 入门指南:介绍 OTel 的 API、SDK、Collector 组件,以及 Traces、Metrics、Logs 三大可观测性支柱,通过购物车示例应用演示分布式链路追踪实现。
OpenTelemetry 埋点详解:讲解手动埋点创建 Span、设置属性和事件,以及使用 Flask、MySQL 自动埋点零代码获取链路追踪数据,快速实现应用可观测性。
OpenTelemetry SDK 导出详解:介绍 TracerProvider 链路追踪生产者、Resource 资源元数据、OTLP Exporter 导出器的配置,实现遥测数据从应用到收集器的传输。
OpenTelemetry Collector 详解:介绍接收器、处理器、导出器组件,DaemonSet 和 Sidecar 两种 Kubernetes 部署方式,以及使用 ocb 工具构建自定义收集器分发版。
OpenTelemetry 传播与行李机制详解:通过 Propagation 传递 TraceID 和 SpanID 实现分布式链路追踪,使用 Baggage 在微服务间传递自定义上下文数据。
OpenTelemetry 生态系统概览:作为 CNCF 第二活跃项目,介绍 OTel 官网、Slack 社区、GitHub 仓库组织结构以及 Registry 注册表,帮助开发者快速入门并参与社区。
VSCode 插件 insertisodate:一键插入 ISO 8601 格式时间,专为 Hugo 博客写作设计,自动填充 date 和 lastmod 字段,提升 SEO 友好度和写作效率。
详解 Prometheus 实验性 info 函数,告别复杂的 group_left join 语法实现标签 Enrichment。info 函数简化 PromQL 写法,并解决标签变化导致的 Churn Problem 和 many-to-many 匹配问题。
记录 Categraf http_response 插件报错 TLS handshake failure 的排查过程。分析 IPv4/IPv6 入口 TLS 配置差异、Go 1.24 默认加密套件变更导致的握手失败,提供 tls_cipher_suites 配置方案解决兼容性问题。
本文介绍如何排查 Flashduty monitor 监控告警时,发现数据不符合预期的场景,帮助用户定位和解决问题。
本文详细介绍了夜莺监控(Nightingale)中机器告警配置的多种方式,包括机器存活监控和普通指标监控,帮助用户更好地管理和监控其基础设施。