又来一个挑战 Elastic 的,初识 SigLens
Elastic Stack 在日志领域具备无与伦比的地位,各类新兴的开源项目都声称比 Elastic 更节省资源,同时检索速度也不慢,今天我们来看看 SigLens。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
Elastic Stack 在日志领域具备无与伦比的地位,各类新兴的开源项目都声称比 Elastic 更节省资源,同时检索速度也不慢,今天我们来看看 SigLens。
这一波 AI 浪潮跟以往都不同,各个行业都看到了新的可能性,都想把 AI 引入自己的场景,看看能迸发什么样的助力。笔者所在的监控、可观测性领域,也有各种尝试,比如:把事件交给 AI 直接分析,让 AI 帮忙编写 Promql 等,有没有其他重磅的应用场景?
手把手演示如何用夜莺接入 ElasticSearch 并配置日志告警,包含数据源接入、查询条件、阈值判断和通知规则设置。
智能 Oncall 让每个工程师可以利用大模型,来帮助自己分担故障处理、问题分析的繁琐工作,并做的更好更快。
可观测性是软件的一个特性,和可用性、可靠性类似的一个特性,每个软件工程师都应该关注,尤其是你需要自证清白的时候。可观测性是软件工程的最佳实践之一,埋点,或称为插桩,是时候作为软件工程的最佳实践之一了
本文讲解在夜莺监控 Nightingale 中如何自定义告警通知的消息模板,达到简洁、可读的效果。做到和 Prometheus 类似的效果。
手把手演示如何用夜莺配置 Prometheus 告警,包括搭建夜莺、接入数据源、编写告警规则、配置通知规则与消息模板,适合告警入门与落地实操。
在现代分布式系统中,性能不仅仅是速度——它是在规模上平衡延迟、可用性和资源效率的问题。有效的警报对于维持这种平衡至关重要。没有它,团队可能会错过真正的故障,对假阳性反应过度,或者对缓慢的退化视而不见。本指南概述了设计重要警报的实用方法——这样您就可以捕捉到出错的,忽略那些没有问题的,并自信地扩展。
服务出现故障时,有没有一张图能够呈现出全系统各部分的健康状态,以便技术团队追查问题时快速找准范围,也方便经理、老板指挥故障处理时,心中有数,有的放矢?
总结应用日志记录的 10 条最佳实践,涵盖日志级别、结构化格式、脱敏、存储限制、冗余备份和工具选型,帮助提升排障效率与可维护性。
Grafana Loki 是很知名的开源日志存储和查询系统,Logrus 是很知名的 Golang 日志库,本文介绍如何将它们集成在一起。通过 Logrus 的钩子机制,我们可以将日志直接发送到 Loki,增强可观察性。
什么样的项目,或者说项目达到什么标准,可由运维人员来共担稳定性?本文从可用性、性能、可观测性、SOP 等方面,给出一些建议。
在监控、可观测性领域,指标的数量与日俱增,尤其是很多业务方会上报特别多稀奇古怪的指标,作为平台存储侧,VictoriaMetrics 在突发大流量下如何自保,就非常重要了。本文介绍了 VictoriaMetrics 的一些自保机制和配置选项,帮助用户在高负载情况下保持系统的稳定性。
本文介绍夜莺新版本的一个重要更新,支持在中心端无法连通的时序库的告警。这个版本的更新增强了夜莺的灵活性和可用性,尤其是在复杂网络环境下的应用场景。希望大家能在实际使用中体验到这个新功能的便利。
很多公司都在使用 Prometheus 和 Nightingale,对于告警规则会有各自的沉淀,新发起一个开源项目,整理常用 Prometheus 告警规则,欢迎大家参与哈。
很多 ToB 的小环境,机器量不多,但是仍然希望日志被集中收集,此时不需要太复杂的架构,就直接使用 Vector 即可采集日志并直接发送到后端 ElasticSearch,本文来做一个演示备忘。
运维这个工作岗位,作为业务背后的团队,做的很多工作不容易被看到,容易被挑战工作的价值,本文尝试来聊一下这个话题,看看运维工作应该侧重在哪些方向
记录在 Linux 测试机上安装 Elasticsearch 8.x 和 Kibana 8.x 的完整过程,包括非 root 部署、HTTPS、重置密码和首次登录配置。
你好,我是一条告警事件,很多研发、运维人员都害怕我来,因为这意味着线上出现了问题。但是,有时候我不来,反而更可怕,因为这意味着问题可能已经存在,只是没有被发现。很多人都苦恼一个问题:到底应该按照什么原则来配置告警,才能不漏报、不乱报?笔者做监控这个方向 10 年了,今天就来分享一下我的一点心得,希望对你有所帮助。
日志监控时,想要在告警消息中带上日志原文,应该如何操作?Flashduty 提供了一个关联查询的功能,可以在告警事件中包含日志原文。