如何监控文件变化,比如密码修改导致 shadow 文件变化

在指标监控体系里,监控文件变化是一个比较棘手的问题,使用 catpaw 配合 FlashDuty 则可以很方便的解决这个问题
如何监控文件变化,比如密码修改导致 shadow 文件变化

使用 JMX-Exporter 监控 Kafka 和 Zookeeper

JVM 默认会通过 JMX 的方式暴露基础指标,很多中间件也会通过 JMX 的方式暴露业务指标,比如 Kafka、Zookeeper、ActiveMQ、Cassandra、Spark、Tomcat、Flink 等等。掌握了 JMX 监控方式,就掌握了一批程序的监控方式。本节介绍 JMX-Exporter 的使用,利用 JMX-Exporter 把 JMX 监控数据暴露为 Prometheus 可识别的格式。
使用 JMX-Exporter 监控 Kafka 和 Zookeeper

面向故障处理的可观测性体系建设

可观测性不能只关注 metrics、logging、tracing 这些 raw data,还要能够从数据中提取特征,进而推导出观点,最终辅助洞察定位故障。能够辅助定位故障才是可观测性的核心目标,构建数据只是建设底座,离目标还差的很远,千万不要觉得有了数据,就完活了。
面向故障处理的可观测性体系建设

机器硬件监控,最简单的方案,没有之一

之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞定,给各位朋友提供一种新的选择
机器硬件监控,最简单的方案,没有之一

core dump 路径定义以及监控

core dump 文件是排查问题的重要工具,如果某个进程 crash 了,出 core 了,需要及时知道,本文来聊聊如何定义 core dump 文件路径、文件命名以及如何监控
core dump 路径定义以及监控

如何解决系统报错:nf_conntrack: table full, dropping packets

容器的宿主或者虚拟机的宿主,在流量比较大的时候,可能会遇到这个问题
如何解决系统报错:nf_conntrack: table full, dropping packets

太卷了,史上最简单的监控系统 catpaw 简介

实际上,这是一个绝对轻量的事件监控工具。catpaw 可以帮助你监控 HTTP 探测、TCP 探测、文件探测、ulimit 探测、目录探测等,然后把异常事件推送到 FlashDuty,实现完备的事件监控。
太卷了,史上最简单的监控系统 catpaw 简介

Flashcat 系列白皮书,免费收藏

什么是可观测性?从传统监控到可观测性,Gap 到底有多大?构建和完善可观测性体系,有哪些最佳实践,应该从哪些维度入手和进阶?
Flashcat 系列白皮书,免费收藏

SRE Google 运维解密读书笔记三:服务质量目标

SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!
SRE Google 运维解密读书笔记三:服务质量目标

SRE Google 运维解密读书笔记二:拥抱风险

不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出
SRE Google 运维解密读书笔记二:拥抱风险

FlashDuty Changelog 2023-05-18

告警管理+Webhook+阿里云SLS+腾讯蓝鲸集成
FlashDuty Changelog 2023-05-18

SRE Google 运维解密读书笔记一:SRE 方法论概述

SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论
SRE Google 运维解密读书笔记一:SRE 方法论概述

玩转Zabbix智能告警:降噪、排班、认领、升级、IM协同

集成Zabbix告警到FlashDuty,获得告警降噪、智能排班、IM协同等能力
玩转Zabbix智能告警:降噪、排班、认领、升级、IM协同

最佳实践:可观测性三支柱?远不止此!

日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽
最佳实践:可观测性三支柱?远不止此!

如何采用 SRE 实践(当你不是 Google 时)

Site reliability engineering (SRE) 并不是一个新的术语或实践。在把 SRE 定义为一个职位名称之前,把软件工程技能和原则应用到运维领域早就已经付诸实践了。在组织层面落地 SRE,用更加积极主动的方式来构建和维护软件,可以推动一些方面的长期成功,比如提升运维效率、数据驱动的路线规划、整体稳定性达成。正是由于 SRE 的广泛采用,我们才得以获得这些优势。
如何采用 SRE 实践(当你不是 Google 时)

优化实践:Prometheus 性能和高基数问题

如果提高 Prometheus 的性能并解决高基数问题,本文作者 David Calvert 讲解了他的一些实践思路
优化实践:Prometheus 性能和高基数问题

年轻人,想要学到答案,请先学会提问

很多技术新人,因为经验匮乏,经常需要去论坛或社区寻求帮助,但是缺少礼仪、不懂提问的智慧,导致最后没有得到答案,本文来分享一下如何正确的提问,才能更快拿到答案。
年轻人,想要学到答案,请先学会提问

Prometheus 瘦身第一步,使用 mimirtool 找到没用的 Prometheus 指标

Prometheus 中有很多指标,有些在 Dashboard 中使用,有些在告警规则、记录规则中使用,有些应该用但是没用起来,有些压根就不应该采集,这些指标值得好好分析,使用 mimirtool 工具可以帮我们做一些这方面的分析工作。
Prometheus 瘦身第一步,使用 mimirtool 找到没用的 Prometheus 指标

Flashcat 统一观测平台,可视化能力简介

Flashcat 统一观测平台,提供 metrics logging tracing 的可视化能力,内置了监控大盘,可以把最佳实践沉淀下来。
Flashcat 统一观测平台,可视化能力简介

产品技术:Flashcat 统一观测平台,告警能力详解

Flashcat 统一观测平台,具备多样的告警策略,不但支持 promql 阈值告警,丝滑的机器告警,还支持日志告警引擎、智能告警引擎,满足所有的告警需求。
产品技术:Flashcat 统一观测平台,告警能力详解

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat