所属分类 他山之石可攻玉 的文章

ClickHouse + ClickVisual 构建日志平台

越来越多的互联网公司开始尝试 ClickHouse 存储日志,比如映客、快手、携程、唯品会、石墨文档,但是 ClickHouse 存储日志缺少对应的可视化方案,石墨文档开源了 ClickVisual 用于解决这个问题。

使用 ClickHouse 做日志分析

ClickHouse 作为日志存储的平台,已经被很多大厂验证,国内的比如石墨、B站、唯品会都有相关实践经验分享。本文介绍 Cloudflare 的实践经验。

可观测性数据收集集大成者 Vector 介绍

如果企业提供 IT 在线服务,那么可观测性能力是必不可少的。“可观测性” 这个词近来也越发火爆,不懂 “可观测性” 都不好意思出门了。但是可观测性能力的构建却着实不易,每个企业都会用到一堆技术栈来组装建设。比如数据收集,可能来自某个 exporter,可能来自 telegraf,可能来自 OTEL,可能来自某个日志文件,可能来自 statsd,收集到数据之后还需要做各种过滤、转换、聚合、采样等操作,烦不胜烦,今天我们就给大家介绍一款开源的数据收集+路由器工具:Vector,解除你的上述烦恼。

VictoriaLogs 要凭什么革了各家日志存储的命

VictoriaLogs 要凭什么革了各家日志存储的命

Grafana 开源了一款 eBPF 采集器 Beyla

eBPF 的发展如火如荼,在可观测性领域大放异彩,Grafana 近期也发布了一款 eBPF 采集器,可以采集服务的 RED 指标,本文做一个尝鲜介绍,让读者有个大概了解。

如何使用夜莺监控 PostgreSQL 数据库

Categraf 默认带了 PostgreSQL 数据库监控插件,可以直接使用,使用 Categraf 的 PostgreSQL 插件监控 PostgreSQL 数据库,也可以使用夜莺的内置 PostgreSQL 仪表盘和告警规则

eBPF Hello World

eBPF(extended Berkeley Packet Filter) 是一种可以在 Linux 内核中运行用户编写的程序,而不需要修改内核代码或加载内核模块的技术。本文 eBPF Hello World 是 eBPF 技术的一个快速入门教程

论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

背景 在我们内部产品中,一直有关于网络性能数据监控需求,我们之前是直接使用 ping 命令收集结果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在重新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来监控数据中心网络情况而开发的软件,通过阅读这篇论文来学习下他们是怎么做的。

使用 eBPF 在云中实现网络可观测性

可观测性是一种了解和解释应用当前状态的能力,也是一种知道何时出现问题的方法。随着在 Kubernetes 和 OpenShift 上以微服务形式进行云部署的应用程序越来越多,可观察性受到了广泛关注。许多应用程序都有严格的承诺,比如在停机时间、延迟和吞吐量方面的 SLA,因此网络层面的可观测性是一项非常必要的功能。网络层面的可观测性由不同的编排器提供,有的是内置支持,有的是通过插件和 operator 提供。 最近,eBPF(扩展的伯克利数据包过滤器)因其性能和灵活性成为在终端主机内核实现可观察性的热门选择。通过这种方法,可以在网络数据路径的某些点(如套接字、TC 和 XDP)上挂接自定义程序。目前已发布了多个基于 eBPF 的开源插件和 operator,每个插件和 operator 都可插入终端主机节点,通过云上的编排器提供网络可观察性。

如何发现及处理 MySQL 主从延迟问题

MySQL 主从延迟,大都知道如何监控,但是怎么处理?

开源的Datadog?可观测性平台SigNoz是否名副其实?

SigNoz号称自己是开源领域的Datadog,基于OpenTelemetry做了一套可观测性方案。夜莺从V6版本开始,也希望做全栈可观测性方案,巧了,大家目标一致,今天我们一起来对SigNoz做个初步了解,看看其产品设计如何,也帮大家未来选型做参考。

监控系统自监控怎么做?

监控系统用于监控其他的系统、基础设施,绝对是 P0 级的服务,那监控系统的自监控应该怎么做才能避免循环依赖呢?

DevOps必知概念:不可变基础设施

本文介绍何为不可变基础设施,何为可变基础设施,这个概念是 DevOps 从业人员必知概念

如何监控文件变化,比如密码修改导致 shadow 文件变化

在指标监控体系里,监控文件变化是一个比较棘手的问题,使用 catpaw 配合 FlashDuty 则可以很方便的解决这个问题

使用 JMX-Exporter 监控 Kafka 和 Zookeeper

JVM 默认会通过 JMX 的方式暴露基础指标,很多中间件也会通过 JMX 的方式暴露业务指标,比如 Kafka、Zookeeper、ActiveMQ、Cassandra、Spark、Tomcat、Flink 等等。掌握了 JMX 监控方式,就掌握了一批程序的监控方式。本节介绍 JMX-Exporter 的使用,利用 JMX-Exporter 把 JMX 监控数据暴露为 Prometheus 可识别的格式。

机器硬件监控,最简单的方案,没有之一

之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞定,给各位朋友提供一种新的选择

core dump 路径定义以及监控

core dump 文件是排查问题的重要工具,如果某个进程 crash 了,出 core 了,需要及时知道,本文来聊聊如何定义 core dump 文件路径、文件命名以及如何监控

如何解决系统报错:nf_conntrack: table full, dropping packets

容器的宿主或者虚拟机的宿主,在流量比较大的时候,可能会遇到这个问题

太卷了,史上最简单的监控系统 catpaw 简介

实际上,这是一个绝对轻量的事件监控工具

SRE Google 运维解密读书笔记三:服务质量目标

SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成!

SRE Google 运维解密读书笔记二:拥抱风险

不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出

SRE Google 运维解密读书笔记一:SRE 方法论概述

SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论

优化实践:Prometheus 性能和高基数问题

如果提高 Prometheus 的性能并解决高基数问题,本文作者 David Calvert 讲解了他的一些实践思路

年轻人,想要学到答案,请先学会提问

很多技术新人,因为经验匮乏,经常需要去论坛或社区寻求帮助,但是缺少礼仪、不懂提问的智慧,导致最后没有得到答案,本文来分享一下如何正确的提问,才能更快拿到答案。

Prometheus 瘦身第一步,使用 mimirtool 找到没用的 Prometheus 指标

Prometheus 中有很多指标,有些在 Dashboard 中使用,有些在告警规则、记录规则中使用,有些应该用但是没用起来,有些压根就不应该采集,这些指标值得好好分析,使用 mimirtool 工具可以帮我们做一些这方面的分析工作。

LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

LinkedIn 有几十万机器,每天执行 15000+ 个任务,任务下发使用的是 Salt,但是做了很多改造。

面试 LinkedIn SRE 是一种怎样的体验?

LinkedIn 作为世界前十大流量的网站,为海量的求职者和雇主提供了建立连接的机会。维护如此庞大的网站的稳定运行,SRE 功不可没,LinkedIn 会如何招聘 SRE 工程师呢?

SLICK: Facebook基于SLO的可靠性保障实践

定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability

SRE 简介,和 DevOps 的关系和异同

SRE 是什么?SRE 和 DevOps 是一个东西吗?或者说 SRE 和 DevOps 的关系和异同如何?

Uber实践:运维大型分布式系统的一些心得

在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的工作。规划系统如何处理10x / 100x流量的增加,确保数据持久,面对硬件故障处理等等,这些都需要智慧。不管怎样,运维大型分布式系统对我来说是一次令人大开眼界的体验。

微服务监控 - Jaeger 简介

CNCF 主推的分布式链路追踪方案是 Jaeger,来自 Uber,Uber 有几千个微服务,调用关系错综复杂,Jaeger 和 M3DB 可谓 Uber 两大微服务监控利器,本讲我们就一起来看一下 Jaeger。

顶级公司Netflix是如何做监控的?

本文阐述了 Netflix 的系统监控实践:自研 Telltale,成功运行并监控着 Netflix 100 多个生产应用程序的运行状况。

如何优化 PromQL 和 MetricsQL 查询

PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。

Nginx stub status采集

本文讲解如何从头开始编译http_stub_status_module模块,并使用input.nginx插件采集指标。

Nginx upstream采集

本文讲解如何添加nginx_upstream_check模块,并使用input.nginx_upstream_check插件采集指标。

Nginx vts采集

本文讲解如何添加vts模块,并使用input.prometheus插件采集指标。

SRE接手新业务首要工作:运维准入测试

如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。

如何在 VictoriaMetrics 中删除或修改指标

在 VictoriaMetrics 中,有些指标不想要了,如何删除?或者有些数据不对,如何更新?

使用AI写篇文章:SNMP Exporter 的使用样例和注意事项

chatGPT真的是太火爆了,Notion跟进,现在Office也跟进,对文字工作者是非常大的冲击,下面这个文章,《SNMP Exporter的使用样例和注意事项》完全由 NotionAI生成,有点牛逼啊

啥!Linux吃掉了我的内存!

我明明没起什么应用程序,Linux怎么显示free的内存快到0了?是不是操作系统有内存泄露啊?

秘籍:分析Linux性能问题!只要一分钟!

这是Netflix在Medium发表的一篇博客,时间是2015年,影响力巨大,特地翻译了一下放到快猫站点上,以飨读者。核心是讲解如何在一分钟内通过各类命令分析Linux性能问题

SRE解决的核心问题究竟是什么?

【摘要】SRE 既做研发也做运维,那么SRE 解决的核心问题究竟是什么? 【作者】汪照辉,中国银河证券架构师,专注于容器云、微服务、DevOps、数据治理、数字化转型等领域,对相关技术有独特的理解和见解。擅长于软件规划和设计,提出的“平台融合”的观点越来越得到认同和事实证明。发表了众多技术文章探讨容器平台建设、微服务技术、DevOps、数字化转型、数据治理、中台建设等内容,受到了广泛关注和肯定。个人微信公众号:技术思维创新 本文转自:twt企业IT社区 SRE 既做研发也做运维,并且要求研发的时间不低于 50% ,但 SRE 是偏运维的,包括 SRE 研发的大部分工作也是和运维相关的。这也让我有了个疑问, SRE 解决的核心问题是什么?

网站可靠性工程师

众所周知,开发和IT运营之间因为屁股决定脑袋,存在巨大的鸿沟,而网站可靠性工程师(SRE)在开发和IT运营之间建立了一座桥梁,SRE会承担原本属于IT运营的一部分工作内容,不过SRE的工作方式和传统的IT运营很不相同,SRE有很强的研发能力,他们通过创建可扩展和可靠的软件系统来解决问题。

Telegraf 发送指标给 Prometheus

Telegraf 作为一个指标层面的 all-in-one 的采集器,用途广泛,Telegraf 具备多种 output 插件,本篇介绍如何使用 prometheus remote write 方式发送数据给后端。

巧用Categraf探针mtail插件实现系统日志监控告警

目前市面上对于日志监控告警的主流方案主要围绕ELK及其变种展开,通过探针采集系统日志写入Kafka,然后基于Kakfa消费数据写入ES,采用定时查询ES 做异常告警;另一种方案则是基于Kafka流式数据,采用Flink直接做异常告警,架构上比较复杂。这里介绍使用mtail的轻量级方案。

HAProxy 监控

HAProxy 作为一款非常流行的软件负载均衡器,在很多公司都有应用,本文介绍如何采集 HAProxy 的监控指标,对 HAProxy 做监控。

Apache Hadoop HDFS 监控

Hadoop HDFS 的监控非常典型,有两种数据采集方法,这一篇介绍第一种,通过 Jolokia 获取 JMX 数据的方式。

使用 grok_exporter 从日志中提取指标(日志监控)

grok_exporter 是一个类似 mtail 的方案,可以流式读取日志文件,通过正则做匹配提取指标,相比 mtail 更为简单直观。不过数据计算方面灵活性稍差。

Kafka 关键概念,什么是AR、OSR、ISR、HW和LEO以及之间的关系

要做 Kafka 的监控,首先要了解 Kafka 的一些关键概念,Kafka 的关键概念还有点多,本文对这些关键概念做一个概要介绍。

MySQL监控概述

MySQL监控应该关注哪些指标?哪些指标比较重要?这些指标从哪里可以获取到?

通过 Categraf SNMP 插件采集监控数据

支持 SNMP 方式采集数据的 agent 有很多,Telegraf、Categraf、Datadog-agent、snmp-exporter等,我们这次来介绍 Categraf,举一反三,原理上都是一样的。

SNMP命令相关参数介绍

SNMP命令通常需要传入一些参数,各个参数分别代表什么意思?有哪些常见的选项?

SNMP(简单网络管理协议)简介

交换机、路由器、防火墙、UPS、打印机、商业存储等的监控,大都是通过 SNMP 协议来监控,那 SNMP 到底是个什么东西?
标签
开源版
Flashcat
Flashduty