可观测性 Observability 3.0 是个啥

翻译 2025-06-30 17:32:58

导读:今天分享的主题有点吓人,《可观测性 3.0 是个啥?》原文地址如下:

https://faun.pub/what-is-observability-3-0-5ba6d805460e

为啥说有点吓人呢?前段时间,行业内刚讨论可观测性 2.0,这还没几天就要探讨 3.0 了?无论如何,咱就喜欢前瞻的思想,下面一起看看作者说了个啥。

在过去十年中,可观测性发生了重大转变 。最初孤立的日志、指标和跟踪已经演变为可观察性 2.0,这是一种统一的方法,它利用上下文丰富的数据、通过 OpenTelemetry 实现的标准化遥测以及平台驱动的洞察力来提供全面的系统可见性。

虽然这种转型需要数年时间才能成熟,但创新的步伐已经大大加快。在许多组织完全实施可观测性 2.0 之前,业界已经对可观测性 3.0 热议不已,那么,3.0 是怎么个思想呢?

为什么要推出可观测性 3.0?

首先,快速回顾一下:可观察性1.0是传统的、基于支柱的方法(日志、指标和跟踪),而可观察性2.0是统一的、上下文丰富的方法(也就是单一事实来源模型)。

在 2025 年及未来几年,可观测性成本预计将急剧飙升。

Gartner 指出,36% 的企业现在每年在可观测性上的支出超过 100 万美元,有些甚至超过 1000 万美元。一家组织的支出从 2009 年的 50,000 美元增加到 2024 年的 1400 万美元,过去五年的年增长率为 40%,远超典型的业务增长。

巴辉特插一嘴:别怕,国内的数据不是这样的,国内很多公司的可观测性体系还相对前期,很多数据都还采集不全呢。

可观测性 3.0 的宏大理念是提高 ROI。以前的版本都没有很好地应对不断上涨的成本。

这一新转变不仅代表了可观测性的下一阶段,它还从根本上关注成本效率。让我们更详细地探讨一下:

O11y 中的这个成本问题需要两个关键转变:

  • 精确遥测: 首先,您需要访问非常详细的遥测数据,以便快速解决客户问题并更深入地了解系统行为。
  • 智能数据收集: 接下来,应尽量减少不必要的遥测数据的收集,这只会增加复杂性并增加成本。

目前的可观测性状态在这些领域是不够的,因为它需要用户预先发送所有可能相关的数据,这会导致工程和财务团队之间出现永久的分歧循环,而不会显著缩短事件解决时间。因此,需要一种更有效的解决方案 — 进入 Observability 3.0。

巴辉特插一嘴:哦…可观测性 3.0 是觉得 2.0 时代采集的数据太多,成本太高,所以希望在 3.0 中倡导提高 ROI… 之前不是倡导解决“未知的未知”吗?那 3.0 还能解决“未知的未知”吗?!

通往 O11y 3.0 的道路

可观测性成本是一个巨大的挑战。它们很高且不可预测,因此更难从可观测性工具中获得价值。跳过可观测性是不可能的;您需要它来保持系统平稳运行并让您的客户满意。因此,关键是有效管理这些成本。

运行许多不同的监控工具会增加复杂性、增加成本并产生安全风险。使用单一可观测性平台可简化操作、节省资金并确保系统安全。

巴辉特插一嘴:虽然我完全不同意你的看法,但我誓死捍卫你说话的权利!算了,后面的内容我觉得不值得翻译,感兴趣的看原文吧。

巴辉特观点

借助本文这个由头,说几个我的个人观点:

1. 数据治理很重要

不管是监控,还是可观测性,不管是 1.0、2.0 还是 3.0,作为企业,请重视自身的数据治理。AI 里有句话叫:Garbage in Garbage out,也很贴切可观测性。

比如:

  • 数据埋点应该有统一的原则、统一的规范,不要各个团队乱来一气
  • 日志打印也一样,不同级别日志乱打,格式不一,希望用 ETL 屎上雕花,脑子真灵活啊
  • 数据维度信息要统一,比如指标里叫 job,日志里叫 app,tracing 里叫 service,那就很难受。公司要制定全局标签,比如 region、env、app、version、product… 这是各个团队对话的基础,降低沟通障碍,类似秦始皇统一度量衡

2. 存储未必要统一

可观测性 2.0 倡导把三支柱的数据统一,但是给出的理由都略微牵强。

古老的 UNIX 哲学认为,一个工具只干一个事,把这个事干好,不同的工具组合使用方为最佳。

存储领域有对象存储、块存储、文件存储,数据库有 OLTP、OLAP,甚至时序数据还有 TSDB,目前这个时代,我还不相信有全场景银弹。

3. 数据特征分析很关键

要想通过海量数据分析,迅速得到洞察,首先应该做的是:数据特征分析。

去年还是前年我分享过一张图,讲解可观测性数据的信息层级:

不管是可观测性 1.0、2.0 还是 3.0,只要方便我分析数据特征,就有了无限可能。

Facebook 的 SLICK、Flashcat 的灭火图产品,都是把所有服务的 SLI 数据放到一个地方,让你更快了解故障爆炸半径(影响范围),同时根据这些 SLI 的数据特征,找到故障的模块,进而找到故障原因。

故障定位的过程,我总结了一句顺口溜:

  • 在全局找特征
  • 在局部找原因

能支撑我做这个“找”的产品,就是好产品。

4. 不要忽视生态

理论在持续演进,挺好的,但是真正落地,是需要生态跟进的。

大名鼎鼎的 OpenTelemetry 发展的如火如荼,但也仅仅在 Tracing 领域应用较多,指标方面,大都还是在用 Prometheus,生态的力量不容小觑。

可观测性 2.0 的生态如果无法建立起来,那离风靡全球,还有很长很长很长的路要走。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat
Flashduty
Flashduty