常见的监控数据采集器有哪些?各有什么优缺点
市面上有很多监控数据采集器,比如 Telegraf、Categraf、Exporter、Datadog-agent、Alloy 等,各自都有哪些优缺点,本文来唠唠这个话题。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
市面上有很多监控数据采集器,比如 Telegraf、Categraf、Exporter、Datadog-agent、Alloy 等,各自都有哪些优缺点,本文来唠唠这个话题。
面对海量的观测数据和复杂的IT环境,如何有效的连接观测系统和大模型,产生智能化的效果,总有一种老虎吃天,无从下嘴的感觉。本文将介绍Flashcat如何解决这个难题,有效的引进大模型,以及相应的案例。
本文讲解可观测性的重要性和 10 个最佳实践。帮助您的企业在复杂的 IT 环境中更好的生存和发展。
夜莺监控的仪表盘支持变量功能,和 Grafana 类似,本文给新手一个简单的使用说明。
夜莺监控系统有两个版本,一个是开源版,一个是 Flashcat 商业版,开源版是免费的,主打的功能是统一告警引擎,商业版侧重点是一站式智能观测平台
Elastic Stack 在日志领域具备无与伦比的地位,各类新兴的开源项目都声称比 Elastic 更节省资源,同时检索速度也不慢,今天我们来看看 SigLens。
这一波 AI 浪潮跟以往都不同,各个行业都看到了新的可能性,都想把 AI 引入自己的场景,看看能迸发什么样的助力。笔者所在的监控、可观测性领域,也有各种尝试,比如:把事件交给 AI 直接分析,让 AI 帮忙编写 Promql 等,有没有其他重磅的应用场景?
手把手演示如何用夜莺接入 ElasticSearch 并配置日志告警,包含数据源接入、查询条件、阈值判断和通知规则设置。
智能 Oncall 让每个工程师可以利用大模型,来帮助自己分担故障处理、问题分析的繁琐工作,并做的更好更快。
可观测性是软件的一个特性,和可用性、可靠性类似的一个特性,每个软件工程师都应该关注,尤其是你需要自证清白的时候。可观测性是软件工程的最佳实践之一,埋点,或称为插桩,是时候作为软件工程的最佳实践之一了
本文讲解在夜莺监控 Nightingale 中如何自定义告警通知的消息模板,达到简洁、可读的效果。做到和 Prometheus 类似的效果。
手把手演示如何用夜莺配置 Prometheus 告警,包括搭建夜莺、接入数据源、编写告警规则、配置通知规则与消息模板,适合告警入门与落地实操。
在现代分布式系统中,性能不仅仅是速度——它是在规模上平衡延迟、可用性和资源效率的问题。有效的警报对于维持这种平衡至关重要。没有它,团队可能会错过真正的故障,对假阳性反应过度,或者对缓慢的退化视而不见。本指南概述了设计重要警报的实用方法——这样您就可以捕捉到出错的,忽略那些没有问题的,并自信地扩展。
总结应用日志记录的 10 条最佳实践,涵盖日志级别、结构化格式、脱敏、存储限制、冗余备份和工具选型,帮助提升排障效率与可维护性。
Grafana Loki 是很知名的开源日志存储和查询系统,Logrus 是很知名的 Golang 日志库,本文介绍如何将它们集成在一起。通过 Logrus 的钩子机制,我们可以将日志直接发送到 Loki,增强可观察性。
什么样的项目,或者说项目达到什么标准,可由运维人员来共担稳定性?本文从可用性、性能、可观测性、SOP 等方面,给出一些建议。
在监控、可观测性领域,指标的数量与日俱增,尤其是很多业务方会上报特别多稀奇古怪的指标,作为平台存储侧,VictoriaMetrics 在突发大流量下如何自保,就非常重要了。本文介绍了 VictoriaMetrics 的一些自保机制和配置选项,帮助用户在高负载情况下保持系统的稳定性。
本文介绍夜莺新版本的一个重要更新,支持在中心端无法连通的时序库的告警。这个版本的更新增强了夜莺的灵活性和可用性,尤其是在复杂网络环境下的应用场景。希望大家能在实际使用中体验到这个新功能的便利。
很多公司都在使用 Prometheus 和 Nightingale,对于告警规则会有各自的沉淀,新发起一个开源项目,整理常用 Prometheus 告警规则,欢迎大家参与哈。
很多 ToB 的小环境,机器量不多,但是仍然希望日志被集中收集,此时不需要太复杂的架构,就直接使用 Vector 即可采集日志并直接发送到后端 ElasticSearch,本文来做一个演示备忘。