Grafana Loki 架构讲解
在本指南中,我们将详细了解Grafana Loki架构及其组件。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
在本指南中,我们将详细了解Grafana Loki架构及其组件。
可观测性,顾名思义,指的是系统状态能够被观察与度量的特性。在信息技术领域,可观测性被精确定义为根据系统生成的输出数据(涵盖日志、指标及跟踪信息)来测量和理解系统当前状态的能力。
这篇博文将向您介绍 Fluent Bit 3.0 以及在可观察性管道(Pipeline)中使用它的一些最佳实践。最近发布的 Fluent Bit 3.0 为 Fluent Bit 最佳实践提供了一些新的机会。让我们看一下 Fluent Bit 以及 v3 的新增功能。
讲解在 Ubuntu 上部署 Fluent Bit 的步骤,以及如何配置 Fluent Bit 将日志转发到 OpenObserve。Fluent Bit 是一个开源的多平台日志转发器,它允许您从不同来源收集数据/日志,统一并将它们发送到多个目的地。托管在 CNCF 基金会下,值得我们去了解。
随着云原生技术的广泛应用,可观测性作为云原生运维的核心工具,正成为事件管理实践中的关键支撑。本文探讨可观测性的本质、来源、发展、重要性及其实施路径。
PromQL是Prometheus的查询语言,想要学习Prometheus,PromQL是必学知识,本文是PromQL系列教程的第四篇,讲解 PromQL 中的向量匹配
系统科普可观测性的起源、定义与价值,讲清日志、指标、追踪三大支柱,以及它们如何帮助团队快速排障、提升系统稳定性与协作效率。
在复杂的服务器运维环境中,可观测性(Observability)是确保系统稳定运行、及时发现并解决问题的关键。这一概念核心通过系统输出的数据—如日志、指标及链路追踪—来精准衡量并理解当前系统的运行状态。
PromQL是Prometheus的查询语言,想要学习Prometheus,PromQL是必学知识,本文是PromQL系列教程的第三篇,讲解 PromQL 入门操作
告警管理作为运维工作的重要组成部分,对于及时发现和处理问题、保障业务连续性具有至关重要的作用。本文围绕服务器运维背景,探讨企业如何实现卓越的告警管理,介绍快猫星云提供的服务。
异构监控系统也带来了新的问题,最为显眼的是告警信息的分散性。本文将探讨如何构建统一告警管理体系,解决这些问题,并借此介绍快猫星云在此领域提供的服务。
随着系统复杂性的增加,运维团队经常面临告警信息过多、难以有效处理的问题。特别是基础设施层面一旦发生故障,上层各类服务都会告警,形成告警风暴,导致运维人员看不过来,那应该怎么办?如何优化海量告警呢
在线 IT 类服务对可用性、稳定性的要求通常都很高,通常会配套提供 IT 监控系统来持续的对服务状态进行监控,一旦发现问题可以及时告警出来,及时处置,那 IT 监控告警的应急响应流程怎么做才是最佳实践呢
PromQL是Prometheus的查询语言,想要学习Prometheus,PromQL是必学知识,本文是PromQL系列教程的第二篇,讲解 Prometheus 数据类型
科普告警级别如何划分,解释 Critical、Warning、Info 等等级的含义、处理优先级和运维响应方式,并结合实践说明分级思路。
PromQL是Prometheus的查询语言,想要学习Prometheus,PromQL是必学知识,本文是PromQL系列教程的第一篇,初识PromQL,主要介绍PromQL的概念、用途、时序数据、数据点、查询类型等知识。
本指南将探讨指标、监控与告警的核心概念,以及它们之间的关联关系、应用场景。这三个词的具体落地是有监控告警系统来承接的,本会也会探讨一款好的监控告警系统应该具备什么特点。
为了及时发现并响应这些潜在问题,告警机制应运而生。本文将围绕服务器运维背景,深入浅出地解释什么是告警、告警处理的步骤,并介绍快猫星云如何为服务器运维中的告警管理与响应提供支持。
随着信息技术的飞速发展,企业对IT系统的依赖日益加深。为确保关键业务的连续性和稳定性,智能化运维监控系统(简称智能运维或AIops)成为了不可或缺的技术支撑。
夜莺开源项目于国庆前夕发布了 v7.4.1 版本,修复了一些 bug,同时也带来了一些新功能。其中最重要的一个功能是:机器支持挂载到多个业务组了。本文将介绍几个重要的变更。