AI 时代的可观测性:从排障工具到运行时控制平面
AI Agent 和 LLM 应用进入生产后,可观测性不再只是排障工具,而会成为可靠性、治理、审计、成本控制和 Agent 自动化的运行时控制平面。本文梳理最近 3 个月的行业信号和企业落地建议。
汇总 Flashcat 博客中与 OpenTelemetry 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
AI Agent 和 LLM 应用进入生产后,可观测性不再只是排障工具,而会成为可靠性、治理、审计、成本控制和 Agent 自动化的运行时控制平面。本文梳理最近 3 个月的行业信号和企业落地建议。
OpenTelemetry 生态系统概览:作为 CNCF 第二活跃项目,介绍 OTel 官网、Slack 社区、GitHub 仓库组织结构以及 Registry 注册表,帮助开发者快速入门并参与社区。
OpenTelemetry 传播与行李机制详解:通过 Propagation 传递 TraceID 和 SpanID 实现分布式链路追踪,使用 Baggage 在微服务间传递自定义上下文数据。
OpenTelemetry Collector 详解:介绍接收器、处理器、导出器组件,DaemonSet 和 Sidecar 两种 Kubernetes 部署方式,以及使用 ocb 工具构建自定义收集器分发版。
OpenTelemetry SDK 导出详解:介绍 TracerProvider 链路追踪生产者、Resource 资源元数据、OTLP Exporter 导出器的配置,实现遥测数据从应用到收集器的传输。
OpenTelemetry 埋点详解:讲解手动埋点创建 Span、设置属性和事件,以及使用 Flask、MySQL 自动埋点零代码获取链路追踪数据,快速实现应用可观测性。
OpenTelemetry 入门指南:介绍 OTel 的 API、SDK、Collector 组件,以及 Traces、Metrics、Logs 三大可观测性支柱,通过购物车示例应用演示分布式链路追踪实现。
通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线,提升可观测性和故障排查效率。
尽管 OpenTelemetry(简称 OTel)风头正劲,你可能会倾向于使用 OpenTelemetry 及其 SDK 来满足所有应用埋点需求。但如果是为了生成可在 Prometheus 中使用的指标,在完全采用 OTel 之前,你至少应该三思。因为这样做不仅可能会让你错失 Prometheus 作为监控系统所特有的部分核心功能,还会面临指标转换不畅、转义问题,以及其他效率低下和复杂棘手的情况。因此,若你希望获得最佳的 Prometheus 监控体验,我仍然建议使用 Prometheus 自身的原生埋点客户端库,而非 OTel SDK。接下来,让我们看看具体原因。
OpenTelemetry Collector 的 filelog receiver(文件日志接收器)为我们提供了一种将日志文件接入现代可观测性流水线的方法。本文将介绍如何配置和使用 filelog receiver,从基础读取到生产级日志处理的各个方面,帮助你构建可靠且高效的日志摄入解决方案。
JMX(Java Management Extensions)是 Java 平台提供的一套标准框架,用于对 Java 应用程序、设备、系统资源进行监控和管理。很多 Java 应用(如 Kafka、Hadoop、Tomcat 等)都通过 JMX 暴露运行时指标,方便运维人员进行监控和故障排查。本文介绍如何将 JMX 与 OpenTelemetry 集成,利用 OpenTelemetry 的强大功能来收集和处理 JMX 指标数据。
尾采样正在彻底改变各组织处理遥测数据的方式,在优化存储成本和系统性能的同时,以前所未有的精度捕获最有价值的追踪数据。
在本文中,我们将使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建一个完整的可观测性技术栈。我们将逐步介绍如何配置这些工具,以实现日志和指标的收集、存储和可视化。
从传统的ELK转向由OpenTelemetry和OpenSearch驱动的技术栈,能为您的日志需求提供更灵活、高效且真正开源的解决方案。您可以借助OTel实现标准化的遥测数据收集,从日志开始,之后再添加追踪和指标数据。这是在内部构建全栈可观测性系统的第一步
OpenTelemetry 是一个开源项目,旨在标准化遥测数据的收集和处理。通过提供一组 API、库和代理,OpenTelemetry 使开发人员能够收集、处理和可视化来自应用程序、服务和系统的遥测数据。
OpenTelemetry 是一个开源可观测性框架,旨在提供统一的标准和工具,以便开发人员可以轻松地收集、生成、收集和导出遥测数据。这些数据包括日志、指标和跟踪,这些数据对于了解应用程序和基础设施的执行情况至关重要
介绍 OpenTelemetry Collector 的部署方式,包括 sidecar 模式、daemonset 模式和中心集群模式。不同的部署方式适用于不同的场景,需要根据实际情况选择合适的部署方式。
OpenTelemetry 是一个用于分布式系统的观测性框架,旨在提供可观测性数据(如追踪、度量和日志)的统一标准和工具。它是由 OpenTelemetry 工作组开发的,结合了 OpenTracing 和 OpenCensus 两个项目的优势。
通过将 OpenTelemetry Collector 与 FluentBit 集成,用户可以简化其可观察性,并为日志、指标和跟踪创建高效、可扩展的数据管道。通过提供的配置文件和 Docker Compose 设置,开始使用这个强大的组合变得简单明了。
如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距的工具。这篇文章详细介绍了 SpanConnector 的工作原理,提供了有关其配置和实现的指南。