可观测性

可观测性,类似软件可用性,是软件的一大特性。如果通过软件暴露的各类信息可以方便了解软件内部运行状态,我们就说软件具备很好的可观测性。

软件暴露的指标、状态页面、打印的日志、事件、吐出的链路追踪数据,Profiling,都是提升软件可观测性的手段;从软件运行环境中收集到的信息,比如从 OS 层面收集到的软件占用的 CPU、内存、句柄、IO 等,也是观测软件的有效手段,提升了软件的可观测性。

可观测性,亦可看做软件在线 debug 的能力,助力排查线上问题。当然,也可以用可观测性数据衡量成本、建立知识沉淀机制等等,可观测性数据在很多场景都有价值。

无需推翻既有的建设,这个可观测性产品思路清奇

市面上已经有很多开源、商业的可观测性类产品,比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等,而且各类云厂商也会提供自己的可观测性套件,有些规划混乱的云厂商甚至会提供功能重叠的多套产品,这加剧了企业数据孤岛的现状。怎么解?
无需推翻既有的建设,这个可观测性产品思路清奇

面向故障处理的可观测性体系建设

可观测性不能只关注 metrics、logging、tracing 这些 raw data,还要能够从数据中提取特征,进而推导出观点,最终辅助洞察定位故障。能够辅助定位故障才是可观测性的核心目标,构建数据只是建设底座,离目标还差的很远,千万不要觉得有了数据,就完活了。
面向故障处理的可观测性体系建设

从监控系统到可观测平台的演进之路

可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
从监控系统到可观测平台的演进之路

产品技术:基于方法论实现的Flashcat监控有哪些设计上的理念和方法?

Flashcat的设计初衷是实现一个从数据到平台到场景真正一体化的统一监控,成为服务稳定性保障,特别是故障处理的真帮手。
产品技术:基于方法论实现的Flashcat监控有哪些设计上的理念和方法?

可观测性与传统监控的区别和联系

什么是可观测性?相比传统监控,可观测性是“新瓶装旧酒”吗?他们有哪些区别和联系,从传统监控到可观测性,Gap 到底有多大?
可观测性与传统监控的区别和联系

监控都没做好,你还要可观测性...

很多公司听说可观测性好,就要上马可观测性项目,自研/采购,各种投入,结果发现效果很差,业务不认可,最终一地鸡毛
监控都没做好,你还要可观测性...

最佳实践:灭火图 - 故障发现和定位的入口

灭火图是发现服务健康与否的入口,也是整个故障定位信息系统的核心,从灭火图开始,可以下钻到具体的接口/基础设施/链路分析数据/问题特征/相关事件等关键维度,引导技术团队高效、精准的定位故障。
最佳实践:灭火图 - 故障发现和定位的入口

用 ERROR 日志做告警:低成本高 ROI 的兜底监控实践

很多团队只做 CPU/内存等机器指标或 SLI 告警,却忽略了 ERROR 日志数量告警。本文说明为什么它 ROI 极高,并给出基于日志中心化收集、ETL 与 Loki/ElasticSearch/VictoriaLogs 的告警规则思路,帮助你用日志告警为指标告警兜底、驱动日志级别治理。

Flashduty RUM 分布式追踪最佳实践:实现前后端请求链路的完整监控

详解如何在 Flashduty RUM 中配置和使用分布式追踪功能,基于 W3C Trace Context 标准,将前端用户操作与后端 API 调用关联,实现端到端的性能监控和问题排查。

AI Agent 监控与可观测性:2025 生产实践指南

在 2025 年,将 AI Agent 部署到生产环境需要全新的监控和可观测性策略。本文介绍了关键指标、成本监控、结构化日志和分布式追踪的最佳实践,帮助团队确保 AI Agent 的可靠性和性能。

可观测性的 AI-Ready 之路

任何方向要真正落地智能化,首先要完成数据建设,以达到AI-Ready状态,再用AI做最后一公里的催化剂。可观测性方向如何才能做到AI-Ready?本文介绍Flashcat完成AI-Ready建设的方法。
可观测性的 AI-Ready 之路

使用 OpenTelemetry 构建可观测性 06 - 生态系统

OpenTelemetry 生态系统概览:作为 CNCF 第二活跃项目,介绍 OTel 官网、Slack 社区、GitHub 仓库组织结构以及 Registry 注册表,帮助开发者快速入门并参与社区。
使用 OpenTelemetry 构建可观测性 06 - 生态系统

使用 OpenTelemetry 构建可观测性 05 - 传播和行李(Propagation & Baggage)

OpenTelemetry 传播与行李机制详解:通过 Propagation 传递 TraceID 和 SpanID 实现分布式链路追踪,使用 Baggage 在微服务间传递自定义上下文数据。
使用 OpenTelemetry 构建可观测性 05 - 传播和行李(Propagation & Baggage)

使用 OpenTelemetry 构建可观测性 04 - 收集器

OpenTelemetry Collector 详解:介绍接收器、处理器、导出器组件,DaemonSet 和 Sidecar 两种 Kubernetes 部署方式,以及使用 ocb 工具构建自定义收集器分发版。
使用 OpenTelemetry 构建可观测性 04 - 收集器

使用 OpenTelemetry 构建可观测性 03 - 导出

OpenTelemetry SDK 导出详解:介绍 TracerProvider 链路追踪生产者、Resource 资源元数据、OTLP Exporter 导出器的配置,实现遥测数据从应用到收集器的传输。
使用 OpenTelemetry 构建可观测性 03 - 导出

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
开源项目