运维的价值为何经常被挑战?哪些工作更有价值?
运维这个工作岗位,作为业务背后的团队,做的很多工作不容易被看到,容易被挑战工作的价值,本文尝试来聊一下这个话题,看看运维工作应该侧重在哪些方向
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
运维这个工作岗位,作为业务背后的团队,做的很多工作不容易被看到,容易被挑战工作的价值,本文尝试来聊一下这个话题,看看运维工作应该侧重在哪些方向
记录在 Linux 测试机上安装 Elasticsearch 8.x 和 Kibana 8.x 的完整过程,包括非 root 部署、HTTPS、重置密码和首次登录配置。
你好,我是一条告警事件,很多研发、运维人员都害怕我来,因为这意味着线上出现了问题。但是,有时候我不来,反而更可怕,因为这意味着问题可能已经存在,只是没有被发现。很多人都苦恼一个问题:到底应该按照什么原则来配置告警,才能不漏报、不乱报?笔者做监控这个方向 10 年了,今天就来分享一下我的一点心得,希望对你有所帮助。
日志监控时,想要在告警消息中带上日志原文,应该如何操作?Flashduty 提供了一个关联查询的功能,可以在告警事件中包含日志原文。
Flashduty 不但是一个一站式告警 OnCall 平台,也提供了告警引擎能力,可以对接各种监控系统,本文介绍 Flashduty 告警规则中多个 PromQL 查询的功能说明
手把手演示夜莺 v8 新版通知规则如何对接钉钉、飞书和企业微信,包括机器人配置、消息模板和 at 人设置。
夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接钉钉通知,同时支持 at 人功能
夜莺监控 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接飞书通知。同时支持普通 text 消息模板和飞书卡片方式
夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,可以非常方便的配置各种通知媒介,比如钉钉、短信、电话等。而且还有非常通用的 HTTP、脚本 通知方式,那么是不是就不需要 Flashduty 了呢?
夜莺监控 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接企微通知
夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接钉钉通知
夜莺监控在 v8.beta7 中做了一个巨大革新,抽象了一个通知规则的概念,来增强告警通知的灵活性,解决多年来的夙愿。
使用夜莺做日志监控,怎么才能在告警事件中包含日志原文
运维人员最紧张的时刻应该就是线上出故障的时刻,一个是紧张没有及时收到通知错过了,一个是处理故障过程中出现纰漏。Flashduty 作为一款专业的告警 OnCall 产品,让告警响应更轻松、从容
本文总结了 Prometheus 的几个常见问题和错误用法,希望能帮助大家更好地使用 Prometheus。
从 Categraf、Prometheus 到夜莺,完整演示如何搭建机器监控、导入仪表盘和告警规则,并配置通知流程,适合快速上手主机监控。
告警 OnCall 实践的核心在于快速响应、高效协作和持续改进。通过避免上述错误实践,团队可以显著提升故障处理效率,降低系统风险,同时减轻 OnCall 人员的压力。
夜莺类似 Grafana 可以接入多个数据源,查询数据源的数据做告警和展示。但是有些数据源所在的机房和中心机房之间网络链路不好,如果由 n9e 进程去周期性查询数据并判定告警,那在网络链路抖动或拥塞的时候,告警就不稳定了。所以,夜莺引入了边缘告警引擎:n9e-edge。n9e-edge 进程部署在边缘机房,和边缘机房的时序库部署在一起,由 n9e-edge 负责边缘机房的告警判定工作,这样整个架构就稳定的多了。
Prometheus 生态的 step 参数是一个很重要的概念,对于监控数据的查询有着重要的影响。大部分情况下,用户不需要关心这个参数,因为监控系统会自动计算 step,以保证查询效率和数据展示的合理性。但是如果你想看原始数据,或者想了解监控数据的采集频率,那就需要了解 step 参数的含义,以及如何手工指定 step 参数啦。
面向 Linux 性能排障,系统介绍 iostat、iotop、vmstat、dstat、sar 五个工具,讲清磁盘 IO 的关键指标、典型症状和排查思路。