夜莺监控(Nightingale)6.x 的机器失联告警设计

夜莺监控(Nightingale)6.x 计划重新设计机器失联告警,不再自动生成 target_up 指标,提升即时性,并且架构上会更容易理解,具体是如何思考的呢,且听本文分解

Telegraf 发送指标给 Prometheus

Telegraf 作为一个指标层面的 all-in-one 的采集器,用途广泛,Telegraf 具备多种 output 插件,本篇介绍如何使用 prometheus remote write 方式发送数据给后端。

运维百家讲坛第1期:井源 - 运维几何

井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《[运维百家讲坛](https://mp.weixin.qq.com/s/Y4rIfV4_7MuYigLNNrtifg)》第 1 期,开讲!

巧用Categraf探针mtail插件实现系统日志监控告警

目前市面上对于日志监控告警的主流方案主要围绕ELK及其变种展开,通过探针采集系统日志写入Kafka,然后基于Kakfa消费数据写入ES,采用定时查询ES 做异常告警;另一种方案则是基于Kafka流式数据,采用Flink直接做异常告警,架构上比较复杂。这里介绍使用mtail的轻量级方案。

夜莺监控(Nightingale)6.x版本整体架构设计思考

夜莺监控(Nightingale)将会在2023年开始设计6.x版本,这个版本的架构会作何改造呢,通过本文做一个梳理,通过梳理的过程我自己也思考的更清晰一些,你也可以了解这个思考的过程。

HAProxy 监控

HAProxy 作为一款非常流行的软件负载均衡器,在很多公司都有应用,本文介绍如何采集 HAProxy 的监控指标,对 HAProxy 做监控。

互联网运维工作的演进和规划

一个典型的互联网企业运维工作和组织架构是怎么样的?运维的未来又是什么样的?

Apache Hadoop HDFS 监控

Hadoop HDFS 的监控非常典型,有两种数据采集方法,这一篇介绍第一种,通过 Jolokia 获取 JMX 数据的方式。

医药健康企业基于Flashcat增强IT服务故障管理能力实践分享

医药健康企业如何建设自己的在线服务故障管理体系?本文结合大型医药企业的实践,分享Flashcat在保障医药企业服务稳定性中的价值和经验。

使用 grok_exporter 从日志中提取指标(日志监控)

grok_exporter 是一个类似 mtail 的方案,可以流式读取日志文件,通过正则做匹配提取指标,相比 mtail 更为简单直观。不过数据计算方面灵活性稍差。