可观测性 Observability 3.0 是个啥

翻译 2025-06-30 17:32:58

导读:今天分享的主题有点吓人,《可观测性 3.0 是个啥?》原文地址如下:

https://faun.pub/what-is-observability-3-0-5ba6d805460e

为啥说有点吓人呢?前段时间,行业内刚讨论可观测性 2.0,这还没几天就要探讨 3.0 了?无论如何,咱就喜欢前瞻的思想,下面一起看看作者说了个啥。

在过去十年中,可观测性发生了重大转变 。最初孤立的日志、指标和跟踪已经演变为可观察性 2.0,这是一种统一的方法,它利用上下文丰富的数据、通过 OpenTelemetry 实现的标准化遥测以及平台驱动的洞察力来提供全面的系统可见性。

虽然这种转型需要数年时间才能成熟,但创新的步伐已经大大加快。在许多组织完全实施可观测性 2.0 之前,业界已经对可观测性 3.0 热议不已,那么,3.0 是怎么个思想呢?

为什么要推出可观测性 3.0?

首先,快速回顾一下:可观察性1.0是传统的、基于支柱的方法(日志、指标和跟踪),而可观察性2.0是统一的、上下文丰富的方法(也就是单一事实来源模型)。

在 2025 年及未来几年,可观测性成本预计将急剧飙升。

Gartner 指出,36% 的企业现在每年在可观测性上的支出超过 100 万美元,有些甚至超过 1000 万美元。一家组织的支出从 2009 年的 50,000 美元增加到 2024 年的 1400 万美元,过去五年的年增长率为 40%,远超典型的业务增长。

巴辉特插一嘴:别怕,国内的数据不是这样的,国内很多公司的可观测性体系还相对前期,很多数据都还采集不全呢。

可观测性 3.0 的宏大理念是提高 ROI。以前的版本都没有很好地应对不断上涨的成本。

这一新转变不仅代表了可观测性的下一阶段,它还从根本上关注成本效率。让我们更详细地探讨一下:

O11y 中的这个成本问题需要两个关键转变:

  • 精确遥测: 首先,您需要访问非常详细的遥测数据,以便快速解决客户问题并更深入地了解系统行为。
  • 智能数据收集: 接下来,应尽量减少不必要的遥测数据的收集,这只会增加复杂性并增加成本。

目前的可观测性状态在这些领域是不够的,因为它需要用户预先发送所有可能相关的数据,这会导致工程和财务团队之间出现永久的分歧循环,而不会显著缩短事件解决时间。因此,需要一种更有效的解决方案 — 进入 Observability 3.0。

巴辉特插一嘴:哦…可观测性 3.0 是觉得 2.0 时代采集的数据太多,成本太高,所以希望在 3.0 中倡导提高 ROI… 之前不是倡导解决“未知的未知”吗?那 3.0 还能解决“未知的未知”吗?!

通往 O11y 3.0 的道路

可观测性成本是一个巨大的挑战。它们很高且不可预测,因此更难从可观测性工具中获得价值。跳过可观测性是不可能的;您需要它来保持系统平稳运行并让您的客户满意。因此,关键是有效管理这些成本。

运行许多不同的监控工具会增加复杂性、增加成本并产生安全风险。使用单一可观测性平台可简化操作、节省资金并确保系统安全。

巴辉特插一嘴:虽然我完全不同意你的看法,但我誓死捍卫你说话的权利!算了,后面的内容我觉得不值得翻译,感兴趣的看原文吧。

巴辉特观点

借助本文这个由头,说几个我的个人观点:

1. 数据治理很重要

不管是监控,还是可观测性,不管是 1.0、2.0 还是 3.0,作为企业,请重视自身的数据治理。AI 里有句话叫:Garbage in Garbage out,也很贴切可观测性。

比如:

  • 数据埋点应该有统一的原则、统一的规范,不要各个团队乱来一气
  • 日志打印也一样,不同级别日志乱打,格式不一,希望用 ETL 屎上雕花,脑子真灵活啊
  • 数据维度信息要统一,比如指标里叫 job,日志里叫 app,tracing 里叫 service,那就很难受。公司要制定全局标签,比如 region、env、app、version、product… 这是各个团队对话的基础,降低沟通障碍,类似秦始皇统一度量衡

2. 存储未必要统一

可观测性 2.0 倡导把三支柱的数据统一,但是给出的理由都略微牵强。

古老的 UNIX 哲学认为,一个工具只干一个事,把这个事干好,不同的工具组合使用方为最佳。

存储领域有对象存储、块存储、文件存储,数据库有 OLTP、OLAP,甚至时序数据还有 TSDB,目前这个时代,我还不相信有全场景银弹。

3. 数据特征分析很关键

要想通过海量数据分析,迅速得到洞察,首先应该做的是:数据特征分析。

去年还是前年我分享过一张图,讲解可观测性数据的信息层级:

不管是可观测性 1.0、2.0 还是 3.0,只要方便我分析数据特征,就有了无限可能。

Facebook 的 SLICK、Flashcat 的灭火图产品,都是把所有服务的 SLI 数据放到一个地方,让你更快了解故障爆炸半径(影响范围),同时根据这些 SLI 的数据特征,找到故障的模块,进而找到故障原因。

故障定位的过程,我总结了一句顺口溜:

  • 在全局找特征
  • 在局部找原因

能支撑我做这个“找”的产品,就是好产品。

4. 不要忽视生态

理论在持续演进,挺好的,但是真正落地,是需要生态跟进的。

大名鼎鼎的 OpenTelemetry 发展的如火如荼,但也仅仅在 Tracing 领域应用较多,指标方面,大都还是在用 Prometheus,生态的力量不容小觑。

可观测性 2.0 的生态如果无法建立起来,那离风靡全球,还有很长很长很长的路要走。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat