所属分类 他山之石可攻玉 的文章

手把手教程:利用 OpenTelemetry 监控微服务

针对一个完整的微服务系统,如何利用 OpenTelemetry 快速搭建一个覆盖数据采集、收集、存储、展示、分析全流程的可观测性系统,crossoverJie 撰写的教程,值得仔细阅读。

记住三个关键开源许可证,选择开源项目不再犯难

开源许可证对比:陆续有一些知名开源项目,出于保护商业利益的角度出发,更改了自己的开源许可证,比如:Redis、Zabbix、Grafana、ElasticSearch、Kibana 等,开源许可证应该怎么选?

ETL 工具之日志提取组件选型比较

什么是ETL?ETL 是指 Extract、Transform、Load 的缩写,是一种常见的数据处理模式,用于将数据从一个数据源抽取(Extract)出来,经过转换(Transform)后加载(Load)到目标数据仓库或数据库中。如果数据源是日志文件,那么最通用的技术栈是ELK。本文对比 logstash 以及 fc-stash 两个 ETL 工具,供大家参考

排查 502 Bad Gateway 的常见思路

浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路

大白话浅析容器网络

容器网络最为典型的是 host network 和 bridge network,本文对二者做对比解释

网络监控:无线监控这个面板好养眼

来自社区用户写的文章,利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,紧接上篇对交换机的监控,本篇是一个无线设备的监控的案例

网络监控:交换机监控新姿势

来自社区用户写的文章,在网络监控领域利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,使其更加友好和方便,并且性能和扩展性进一步提高

可观测建设实践之 - 日志分析的权衡取舍

本文将结合实战经验,介绍一种日志分析的实现,分析如何在稳定性保障中用好日志这个维度,以及日志如何与指标、链路相互配合形成故障定位的最佳实践。

5 分钟小工具:使用 dive 分析 docker 镜像

dive 是一个用于分析 docker 镜像的工具,可以帮助你快速了解镜像的构成和大小,以及优化镜像大小。

Vector + ClickHouse 收集日志

目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse

使用 nsenter 排查容器网络问题

我想进入容器中执行 curl 命令探测某个地址的连通性,但是容器镜像里默认没有 curl 命令。我这里是一个内网环境不太方便使用 yum 或者 apt 安装,怎么办?这个需求比较典型,这里教大家一个简单的方法,使用 nsenter 进入容器的 net namespace,即可使用宿主机的 curl、ip、ifconfig 等命令,其效果,就跟进入容器中执行是一样的。

2 分钟,了解 4 个极为有用的 MetricsQL 函数

夜莺社区的朋友如果问时序库的选型,我一般都会推荐 VictoriaMetrics,除了其性能、稳定性、集群扩展能力之外,VictoriaMetrics 还扩展了 PromQL,提供了 MetricsQL,即增强了 PromQL 的能力。比如下面介绍的场景,就很适合用 MetricsQL 来解决。

如何排查常规软件问题 - 面向 Linux 初级用户的教程

笔者从 14 年做开源软件以来,接触了众多 Linux 新手用户,这里我为这类用户总结了一些常见的问题排查方法,希望能帮助到大家。如果你已经工作多年,对于下面提到的思路和方法应该非常熟悉,如果对某一条感到陌生,咳咳,真的不太应该,赶紧补补吧。

漫画图解 Go 并发编程之:Channel

使用漫画的方式虚拟一个咖啡馆的点餐场景,来讲解 Go Channel 的原理和使用。

Google SRE 的 on-call 方法和工具

我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?

快速监控 Oracle 数据库

Oracle 数据库在行业内应用广泛,通常存放的非常重要的数据,监控是必不可少的,本文使用 Cprobe 采集 Oracle 监控数据,极致简单,分享给大家

利用夜莺开源版对H3C无线设备监控

来自夜莺社区用户写的文章,前文说明了利用夜莺开源版如何监控H3C交换机的,算是抛砖引玉;秉持着授人与鱼不如授人与渔,今天我们就来具体谈谈夜莺SNMP插件的使用,能自己自定义自身需求的监控指标才是真正学会如何利用夜莺去监控SNMP协议设备,今天将以H3C无线作为案例,具体讲解下SNMP插件配置。

ClickHouse + ClickVisual 构建日志平台

越来越多的互联网公司开始尝试 ClickHouse 存储日志,比如映客、快手、携程、唯品会、石墨文档,但是 ClickHouse 存储日志缺少对应的可视化方案,石墨文档开源了 ClickVisual 用于解决这个问题。

使用 ClickHouse 做日志分析

ClickHouse 作为日志存储的平台,已经被很多大厂验证,国内的比如石墨、B站、唯品会都有相关实践经验分享。本文介绍 Cloudflare 的实践经验。

可观测性数据收集集大成者 Vector 介绍

如果企业提供 IT 在线服务,那么可观测性能力是必不可少的。“可观测性” 这个词近来也越发火爆,不懂 “可观测性” 都不好意思出门了。但是可观测性能力的构建却着实不易,每个企业都会用到一堆技术栈来组装建设。比如数据收集,可能来自某个 exporter,可能来自 telegraf,可能来自 OTEL,可能来自某个日志文件,可能来自 statsd,收集到数据之后还需要做各种过滤、转换、聚合、采样等操作,烦不胜烦,今天我们就给大家介绍一款开源的数据收集+路由器工具:Vector,解除你的上述烦恼。

VictoriaLogs 要凭什么革了各家日志存储的命

VictoriaLogs 要凭什么革了各家日志存储的命

Grafana 开源了一款 eBPF 采集器 Beyla

eBPF 的发展如火如荼,在可观测性领域大放异彩,Grafana 近期也发布了一款 eBPF 采集器,可以采集服务的 RED 指标,本文做一个尝鲜介绍,让读者有个大概了解。

如何使用夜莺监控 PostgreSQL 数据库

Categraf 默认带了 PostgreSQL 数据库监控插件,可以直接使用,使用 Categraf 的 PostgreSQL 插件监控 PostgreSQL 数据库,也可以使用夜莺的内置 PostgreSQL 仪表盘和告警规则

eBPF Hello World

eBPF(extended Berkeley Packet Filter) 是一种可以在 Linux 内核中运行用户编写的程序,而不需要修改内核代码或加载内核模块的技术。本文 eBPF Hello World 是 eBPF 技术的一个快速入门教程

论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

背景 在我们内部产品中,一直有关于网络性能数据监控需求,我们之前是直接使用 ping 命令收集结果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在重新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来监控数据中心网络情况而开发的软件,通过阅读这篇论文来学习下他们是怎么做的。

使用 eBPF 在云中实现网络可观测性

可观测性是一种了解和解释应用当前状态的能力,也是一种知道何时出现问题的方法。随着在 Kubernetes 和 OpenShift 上以微服务形式进行云部署的应用程序越来越多,可观察性受到了广泛关注。许多应用程序都有严格的承诺,比如在停机时间、延迟和吞吐量方面的 SLA,因此网络层面的可观测性是一项非常必要的功能。网络层面的可观测性由不同的编排器提供,有的是内置支持,有的是通过插件和 operator 提供。 最近,eBPF(扩展的伯克利数据包过滤器)因其性能和灵活性成为在终端主机内核实现可观察性的热门选择。通过这种方法,可以在网络数据路径的某些点(如套接字、TC 和 XDP)上挂接自定义程序。目前已发布了多个基于 eBPF 的开源插件和 operator,每个插件和 operator 都可插入终端主机节点,通过云上的编排器提供网络可观察性。

如何发现及处理 MySQL 主从延迟问题

MySQL 主从延迟,大都知道如何监控,但是怎么处理?

开源的Datadog?可观测性平台SigNoz是否名副其实?

SigNoz号称自己是开源领域的Datadog,基于OpenTelemetry做了一套可观测性方案。夜莺从V6版本开始,也希望做全栈可观测性方案,巧了,大家目标一致,今天我们一起来对SigNoz做个初步了解,看看其产品设计如何,也帮大家未来选型做参考。

监控系统自监控怎么做?

监控系统用于监控其他的系统、基础设施,绝对是 P0 级的服务,那监控系统的自监控应该怎么做才能避免循环依赖呢?

DevOps必知概念:不可变基础设施

本文介绍何为不可变基础设施,何为可变基础设施,这个概念是 DevOps 从业人员必知概念

如何监控文件变化,比如密码修改导致 shadow 文件变化

在指标监控体系里,监控文件变化是一个比较棘手的问题,使用 catpaw 配合 FlashDuty 则可以很方便的解决这个问题

使用 JMX-Exporter 监控 Kafka 和 Zookeeper

JVM 默认会通过 JMX 的方式暴露基础指标,很多中间件也会通过 JMX 的方式暴露业务指标,比如 Kafka、Zookeeper、ActiveMQ、Cassandra、Spark、Tomcat、Flink 等等。掌握了 JMX 监控方式,就掌握了一批程序的监控方式。本节介绍 JMX-Exporter 的使用,利用 JMX-Exporter 把 JMX 监控数据暴露为 Prometheus 可识别的格式。

机器硬件监控,最简单的方案,没有之一

之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞定,给各位朋友提供一种新的选择

core dump 路径定义以及监控

core dump 文件是排查问题的重要工具,如果某个进程 crash 了,出 core 了,需要及时知道,本文来聊聊如何定义 core dump 文件路径、文件命名以及如何监控

如何解决系统报错:nf_conntrack: table full, dropping packets

容器的宿主或者虚拟机的宿主,在流量比较大的时候,可能会遇到这个问题

太卷了,史上最简单的监控系统 catpaw 简介

实际上,这是一个绝对轻量的事件监控工具

SRE Google 运维解密读书笔记三:服务质量目标

SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!

SRE Google 运维解密读书笔记二:拥抱风险

不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出

SRE Google 运维解密读书笔记一:SRE 方法论概述

SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论

优化实践:Prometheus 性能和高基数问题

如果提高 Prometheus 的性能并解决高基数问题,本文作者 David Calvert 讲解了他的一些实践思路

年轻人,想要学到答案,请先学会提问

很多技术新人,因为经验匮乏,经常需要去论坛或社区寻求帮助,但是缺少礼仪、不懂提问的智慧,导致最后没有得到答案,本文来分享一下如何正确的提问,才能更快拿到答案。

Prometheus 瘦身第一步,使用 mimirtool 找到没用的 Prometheus 指标

Prometheus 中有很多指标,有些在 Dashboard 中使用,有些在告警规则、记录规则中使用,有些应该用但是没用起来,有些压根就不应该采集,这些指标值得好好分析,使用 mimirtool 工具可以帮我们做一些这方面的分析工作。

LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

LinkedIn 有几十万机器,每天执行 15000+ 个任务,任务下发使用的是 Salt,但是做了很多改造。

面试 LinkedIn SRE 是一种怎样的体验?

LinkedIn 作为世界前十大流量的网站,为海量的求职者和雇主提供了建立连接的机会。维护如此庞大的网站的稳定运行,SRE 功不可没,LinkedIn 会如何招聘 SRE 工程师呢?

SLICK: Facebook基于SLO的可靠性保障实践

定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability

SRE 简介,和 DevOps 的关系和异同

SRE 是什么?SRE 和 DevOps 是一个东西吗?或者说 SRE 和 DevOps 的关系和异同如何?

Uber实践:运维大型分布式系统的一些心得

在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的工作。规划系统如何处理10x / 100x流量的增加,确保数据持久,面对硬件故障处理等等,这些都需要智慧。不管怎样,运维大型分布式系统对我来说是一次令人大开眼界的体验。

微服务监控 - Jaeger 简介

CNCF 主推的分布式链路追踪方案是 Jaeger,来自 Uber,Uber 有几千个微服务,调用关系错综复杂,Jaeger 和 M3DB 可谓 Uber 两大微服务监控利器,本讲我们就一起来看一下 Jaeger。

顶级公司Netflix是如何做监控的?

本文阐述了 Netflix 的系统监控实践:自研 Telltale,成功运行并监控着 Netflix 100 多个生产应用程序的运行状况。

如何优化 PromQL 和 MetricsQL 查询

PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。

Nginx stub status采集

本文讲解如何从头开始编译http_stub_status_module模块,并使用input.nginx插件采集指标。

Nginx upstream采集

本文讲解如何添加nginx_upstream_check模块,并使用input.nginx_upstream_check插件采集指标。

Nginx vts采集

本文讲解如何添加vts模块,并使用input.prometheus插件采集指标。

SRE接手新业务首要工作:运维准入测试

如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。

如何在 VictoriaMetrics 中删除或修改指标

在 VictoriaMetrics 中,有些指标不想要了,如何删除?或者有些数据不对,如何更新?

使用AI写篇文章:SNMP Exporter 的使用样例和注意事项

chatGPT真的是太火爆了,Notion跟进,现在Office也跟进,对文字工作者是非常大的冲击,下面这个文章,《SNMP Exporter的使用样例和注意事项》完全由 NotionAI生成,有点牛逼啊

啥!Linux吃掉了我的内存!

我明明没起什么应用程序,Linux怎么显示free的内存快到0了?是不是操作系统有内存泄露啊?

秘籍:分析Linux性能问题!只要一分钟!

这是Netflix在Medium发表的一篇博客,时间是2015年,影响力巨大,特地翻译了一下放到快猫站点上,以飨读者。核心是讲解如何在一分钟内通过各类命令分析Linux性能问题

SRE解决的核心问题究竟是什么?

【摘要】SRE 既做研发也做运维,那么SRE 解决的核心问题究竟是什么? 【作者】汪照辉,中国银河证券架构师,专注于容器云、微服务、DevOps、数据治理、数字化转型等领域,对相关技术有独特的理解和见解。擅长于软件规划和设计,提出的“平台融合”的观点越来越得到认同和事实证明。发表了众多技术文章探讨容器平台建设、微服务技术、DevOps、数字化转型、数据治理、中台建设等内容,受到了广泛关注和肯定。个人微信公众号:技术思维创新 本文转自:twt企业IT社区 SRE 既做研发也做运维,并且要求研发的时间不低于 50% ,但 SRE 是偏运维的,包括 SRE 研发的大部分工作也是和运维相关的。这也让我有了个疑问, SRE 解决的核心问题是什么?

网站可靠性工程师

众所周知,开发和IT运营之间因为屁股决定脑袋,存在巨大的鸿沟,而网站可靠性工程师(SRE)在开发和IT运营之间建立了一座桥梁,SRE会承担原本属于IT运营的一部分工作内容,不过SRE的工作方式和传统的IT运营很不相同,SRE有很强的研发能力,他们通过创建可扩展和可靠的软件系统来解决问题。

Telegraf 发送指标给 Prometheus

Telegraf 作为一个指标层面的 all-in-one 的采集器,用途广泛,Telegraf 具备多种 output 插件,本篇介绍如何使用 prometheus remote write 方式发送数据给后端。

巧用Categraf探针mtail插件实现系统日志监控告警

目前市面上对于日志监控告警的主流方案主要围绕ELK及其变种展开,通过探针采集系统日志写入Kafka,然后基于Kakfa消费数据写入ES,采用定时查询ES 做异常告警;另一种方案则是基于Kafka流式数据,采用Flink直接做异常告警,架构上比较复杂。这里介绍使用mtail的轻量级方案。

HAProxy 监控

HAProxy 作为一款非常流行的软件负载均衡器,在很多公司都有应用,本文介绍如何采集 HAProxy 的监控指标,对 HAProxy 做监控。

Apache Hadoop HDFS 监控

Hadoop HDFS 的监控非常典型,有两种数据采集方法,这一篇介绍第一种,通过 Jolokia 获取 JMX 数据的方式。

使用 grok_exporter 从日志中提取指标(日志监控)

grok_exporter 是一个类似 mtail 的方案,可以流式读取日志文件,通过正则做匹配提取指标,相比 mtail 更为简单直观。不过数据计算方面灵活性稍差。

Kafka 关键概念,什么是AR、OSR、ISR、HW和LEO以及之间的关系

要做 Kafka 的监控,首先要了解 Kafka 的一些关键概念,Kafka 的关键概念还有点多,本文对这些关键概念做一个概要介绍。

MySQL监控概述

MySQL监控应该关注哪些指标?哪些指标比较重要?这些指标从哪里可以获取到?

通过 Categraf SNMP 插件采集监控数据

支持 SNMP 方式采集数据的 agent 有很多,Telegraf、Categraf、Datadog-agent、snmp-exporter等,我们这次来介绍 Categraf,举一反三,原理上都是一样的。

SNMP命令相关参数介绍

SNMP命令通常需要传入一些参数,各个参数分别代表什么意思?有哪些常见的选项?

SNMP(简单网络管理协议)简介

交换机、路由器、防火墙、UPS、打印机、商业存储等的监控,大都是通过 SNMP 协议来监控,那 SNMP 到底是个什么东西?
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd etl flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs httpstat iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logging logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opentelemetry oracle监控 otel pagerduty pingmesh postgresql product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 告警自愈 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty