17 个您需要监控的 Linux 日志文件
作为运维工程师,很多日志文件是需要监控的,研发不会主动要求,他们会默认你已经采集了。主要是一些系统日志和 Web 服务器的日志,本文会罗列出来帮你查漏补缺。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
作为运维工程师,很多日志文件是需要监控的,研发不会主动要求,他们会默认你已经采集了。主要是一些系统日志和 Web 服务器的日志,本文会罗列出来帮你查漏补缺。
告警数据孤岛问题是一个很现实的问题,随着公司规模的扩大,监控系统的引入,这个问题会越来越严重。解决这个问题,Flashduty 是一个不错的选择,它可以帮助我们把所有的告警事件收敛到一个地方,方便我们统一管理、故障定位、响应处理。
连锁门店企业的可观测性有什么特点和建设中的挑战和难点?本文将总结分享Flashcat为多家大型连锁门店企业建设可观测性平台的经验。
监控系统里最重要的概念就是监控指标了,监控指标很多,而且都是英文的,分别代表什么意思
夜莺监控发布 v8.beta5 版本,优化 UI,新增接口认证方式便于鉴权。同时对仪表盘的一些细节做了优化。
MySQL 是非常常用的一款数据库,如何监控 MySQL,是广大运维、DBA非常关心的问题。通过 MySQL 自带的工具和开源监控工具,可以更直观地监控 MySQL 的性能和状态,及时发现问题,提高数据库的稳定性和性能。
MetricsHub 是 Sentry 开源的一款监控数据采集器,侧重在网络设备采集,和 OpenTelemetry 协议兼容,可以作为众多采集器的一个补充
如何建设一套适合出海业务的可观测性体系,既能够保障服务的稳定运行,又能够权衡好观测系统的用户体验和落地成本?
统一观测系统建设中存量系统如何处理?本文将介绍两种处理存量观测系统数据的方案,对比方案的优劣,并介绍Flashcat的选择和思考。
Kubernetes 是一个非常复杂的系统,涉及到很多概念和技术,本文提供 10 个问题测试你对 K8s 的理解
告警事件产生之后,如果能够附加更多元信息,对于降低沟通成本、提高排障效率都有帮助,那告警事件如何与 CMDB 等打通获取元信息并附加到事件之上呢,本文会分享一些思路
进程监控是一种黑盒监控手段,可以监控进程的运行状态,进程的 CPU、内存、IO等资源消耗情况。本文会介绍使用 Categraf 进行进程监控的方法
讲解两种告警降噪思路:基于时间窗口聚合告警事件,以及 Flashduty 的滑动窗口合并与实时通知,帮助减少告警风暴并提升处置效率。
ElasticSearch 支持多种查询语法,DSL、SQL、EQL 等,其中 DSL 中的 query_string 极为灵活,可以看做一种小型查询语法,本文介绍一下 query_string 的几个简单样例,帮助你快速入门
对于大部分公司,通常都不止一套监控、可观测性相关的系统,云上的、云下的,开源的、商业的,指标的、日志的、链路的,各个系统体验不同,权限难管,如何统一化并为各个团队赋能,是很多技术负责人极为头疼的问题。
对于大部分公司,通常都不止一套监控、可观测性相关的系统,各个系统体验不同,有些技术人员甚至都不知道公司有这么多套更遑论使用了,如何统一化?可视化方面一般会选择 Grafana,告警方面,推荐 Flashduty
Flashduty 告警引擎功能提供了失联告警能力,即在引擎失联之后可以自动生成告警事件,通知系统维护人员,大大提升了 Flashduty 告警引擎的可用性
夜莺开源项目背后是有一个商业团队持续支持的,这样项目的生命力会更为持久,基于这个开源项目做商业化也有3年了,本文是一些创业思考
告警 OnCall 机制是企业运维团队保障业务连续性的重要手段,本文介绍了为什么要有值班制度、设计高效值班制度的核心要素、在 Flashduty 中的值班实践以及案例分享。
夜莺监控从 v8.beta3 开始,支持了 ElasticSearch 的告警,这是社区一直心心念念的功能。日志告警是重要监控手段,对服务稳定性很是关键,欢迎大家体验起来。