可观测性 这个话题主要看什么
软件暴露的指标、状态页面、打印的日志、事件、吐出的链路追踪数据,Profiling,都是提升软件可观测性的手段;从软件运行环境中收集到的信息,比如从 OS 层面收集到的软件占用的 CPU、内存、句柄、IO 等,也是观测软件的有效手段,提升了软件的可观测性。
可观测性,亦可看做软件在线 debug 的能力,助力排查线上问题。当然,也可以用可观测性数据衡量成本、建立知识沉淀机制等等,可观测性数据在很多场景都有价值。
可观测性,类似软件可用性,是软件的一大特性。如果通过软件暴露的各类信息可以方便了解软件内部运行状态,我们就说软件具备很好的可观测性。可观测性,亦可看做软件在线 debug 的能力,助力排查线上问题。当然,也可以用可观测性数据衡量成本、建立知识沉淀机制等等,可观测性数据在很多场景都有价值。
围绕 可观测性 的实践、选型、案例和产品内容,按同一阅读路径持续整理。
OpenTelemetry 生态系统概览:作为 CNCF 第二活跃项目,介绍 OTel 官网、Slack 社区、GitHub 仓库组织结构以及 Registry 注册表,帮助开发者快速入门并参与社区。
OpenTelemetry 传播与行李机制详解:通过 Propagation 传递 TraceID 和 SpanID 实现分布式链路追踪,使用 Baggage 在微服务间传递自定义上下文数据。
OpenTelemetry Collector 详解:介绍接收器、处理器、导出器组件,DaemonSet 和 Sidecar 两种 Kubernetes 部署方式,以及使用 ocb 工具构建自定义收集器分发版。
OpenTelemetry SDK 导出详解:介绍 TracerProvider 链路追踪生产者、Resource 资源元数据、OTLP Exporter 导出器的配置,实现遥测数据从应用到收集器的传输。
OpenTelemetry 埋点详解:讲解手动埋点创建 Span、设置属性和事件,以及使用 Flask、MySQL 自动埋点零代码获取链路追踪数据,快速实现应用可观测性。
OpenTelemetry 入门指南:介绍 OTel 的 API、SDK、Collector 组件,以及 Traces、Metrics、Logs 三大可观测性支柱,通过购物车示例应用演示分布式链路追踪实现。
目前国内外市场上有众多可观测性产品,Flashcat和其他可观测性产品有什么不同?
宽事件(Wide Events)是一种强大的可观测性实践方法,能够显著提升系统调试效率与可见性。本文将介绍如何在实际项目中应用宽事件理念,包括所需工具、代码实现思路及属性添加清单,帮助开发者更好地理解和实践这一理念。
通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线,提升可观测性和故障排查效率。
本文总结了可观测性的五大最佳实践,涵盖从业务入手、定位路径、数据关联、自动化响应到自顶向下推进等关键方面,帮助提升系统的监控与故障排查效率。
可观测性能够帮助团队检测故障,并深入了解故障的根本原因。这不仅简化了调试流程,还能提升系统性能与可靠性。现代 DevOps 从开源可观测性工具中获益良多。
探索如何通过战略性设计和文化转型实现可观测性,提升系统可靠性并推动业务成功。
可观察性是一种方法,可以帮助您预测和预防未来的问题。它有助于根据外部输出的知识确定系统的状态。本文将详细介绍可观测性的定义、重要性、好处、挑战、支柱及其如何运作。
笔者做监控 11 年,在可观测性领域创业 4 年,与各类客户沟通较多,发现很多企业想要建设可观测性体系,但是不得章法,我把整个建设过程做了一个简单总结,梳理一下其中的脉络,希望对你有所启发。
第三届 CCF·夜莺开源创新论坛,于 2025.7.4 在京举行,论坛上,众多可观测性领域的专家齐聚一堂,共同分享、探讨监控、可观测性、AI 相关的议题。来自“滴滴出行”的内核专家张同浩,带来了主题为《HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析》的分享,笔者在现场作为观众受益良多,现将其内容整理如下,供大家参考。
在 Zepto,我们的可观测性平台经历了从 Prometheus + Thanos 到 Grafana Mimir 的重大转变。本文将深入探讨这一演进过程中的挑战、解决方案以及我们如何实现高效的多租户指标存储。
在本文中,我们将使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建一个完整的可观测性技术栈。我们将逐步介绍如何配置这些工具,以实现日志和指标的收集、存储和可视化。
可观测性 3.0 是个啥?本文介绍了可观测性 3.0 的背景、目标和实现方式,强调了成本效率和智能数据收集的重要性。
从 2014 年开发 Open-Falcon 到后来开发 Nightingale 再到现在创业,算下来,在这个领域摸爬滚打 10 多年了。本文梳理了创业的原因、领域选择、痛点解决、产品区别等问题。
最近行业内讨论 Observability 2.0 又多起来了,怎么算是 2.0?如果我没记错,最原始的观点应该是 Honeycomb 的 CTO 提出来的。她说:三大支柱(指标、日志、链路追踪)时代是 Observability 1.0 时代,三类数据分散存储,不好统一分析,而 Observability 2.0 时代是三类数据统一存储,甚至不再归类为三类数据,而是统一归为“宽事件”数据,每个事件有很多字段和标签。