可观测性最佳实践:一分钟精简版
本文总结了可观测性的五大最佳实践,涵盖从业务入手、定位路径、数据关联、自动化响应到自顶向下推进等关键方面,帮助提升系统的监控与故障排查效率。
汇总 Flashcat 博客中与 可观测性 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
本文总结了可观测性的五大最佳实践,涵盖从业务入手、定位路径、数据关联、自动化响应到自顶向下推进等关键方面,帮助提升系统的监控与故障排查效率。
可观测性能够帮助团队检测故障,并深入了解故障的根本原因。这不仅简化了调试流程,还能提升系统性能与可靠性。现代 DevOps 从开源可观测性工具中获益良多。
探索如何通过战略性设计和文化转型实现可观测性,提升系统可靠性并推动业务成功。
可观察性是一种方法,可以帮助您预测和预防未来的问题。它有助于根据外部输出的知识确定系统的状态。本文将详细介绍可观测性的定义、重要性、好处、挑战、支柱及其如何运作。
笔者做监控 11 年,在可观测性领域创业 4 年,与各类客户沟通较多,发现很多企业想要建设可观测性体系,但是不得章法,我把整个建设过程做了一个简单总结,梳理一下其中的脉络,希望对你有所启发。
第三届 CCF·夜莺开源创新论坛,于 2025.7.4 在京举行,论坛上,众多可观测性领域的专家齐聚一堂,共同分享、探讨监控、可观测性、AI 相关的议题。来自“滴滴出行”的内核专家张同浩,带来了主题为《HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析》的分享,笔者在现场作为观众受益良多,现将其内容整理如下,供大家参考。
在 Zepto,我们的可观测性平台经历了从 Prometheus + Thanos 到 Grafana Mimir 的重大转变。本文将深入探讨这一演进过程中的挑战、解决方案以及我们如何实现高效的多租户指标存储。
在本文中,我们将使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建一个完整的可观测性技术栈。我们将逐步介绍如何配置这些工具,以实现日志和指标的收集、存储和可视化。
可观测性 3.0 是个啥?本文介绍了可观测性 3.0 的背景、目标和实现方式,强调了成本效率和智能数据收集的重要性。
从 2014 年开发 Open-Falcon 到后来开发 Nightingale 再到现在创业,算下来,在这个领域摸爬滚打 10 多年了。本文梳理了创业的原因、领域选择、痛点解决、产品区别等问题。
最近行业内讨论 Observability 2.0 又多起来了,怎么算是 2.0?如果我没记错,最原始的观点应该是 Honeycomb 的 CTO 提出来的。她说:三大支柱(指标、日志、链路追踪)时代是 Observability 1.0 时代,三类数据分散存储,不好统一分析,而 Observability 2.0 时代是三类数据统一存储,甚至不再归类为三类数据,而是统一归为“宽事件”数据,每个事件有很多字段和标签。
业内经常讲可观测性有三大支柱:指标、日志、链路追踪,本文作者认为,还有第四大支柱:那就是配置类数据。配置类数据的变更也会影响系统的稳定性,也值得被监控,方便我们快速排查问题。
Flashcat 提供了一个截图推送的功能,可在系统出现异常或触发重要告警时,将观测系统里的某个页面截图发送到IM群,并引导用户从这个截图页面进入观测系统,进行下一步的分析定位。
市面上有很多监控数据采集器,比如 Telegraf、Categraf、Exporter、Datadog-agent、Alloy 等,各自都有哪些优缺点,本文来唠唠这个话题。
面对海量的观测数据和复杂的IT环境,如何有效的连接观测系统和大模型,产生智能化的效果,总有一种老虎吃天,无从下嘴的感觉。本文将介绍Flashcat如何解决这个难题,有效的引进大模型,以及相应的案例。
本文讲解可观测性的重要性和 10 个最佳实践。帮助您的企业在复杂的 IT 环境中更好的生存和发展。
这一波 AI 浪潮跟以往都不同,各个行业都看到了新的可能性,都想把 AI 引入自己的场景,看看能迸发什么样的助力。笔者所在的监控、可观测性领域,也有各种尝试,比如:把事件交给 AI 直接分析,让 AI 帮忙编写 Promql 等,有没有其他重磅的应用场景?
可观测性是软件的一个特性,和可用性、可靠性类似的一个特性,每个软件工程师都应该关注,尤其是你需要自证清白的时候。可观测性是软件工程的最佳实践之一,埋点,或称为插桩,是时候作为软件工程的最佳实践之一了
服务出现故障时,有没有一张图能够呈现出全系统各部分的健康状态,以便技术团队追查问题时快速找准范围,也方便经理、老板指挥故障处理时,心中有数,有的放矢?
连锁门店企业的可观测性有什么特点和建设中的挑战和难点?本文将总结分享Flashcat为多家大型连锁门店企业建设可观测性平台的经验。