夜莺项目发布v6.0.3版本,增强告警订阅功能

夜莺项目发布v6.0.3版本,增强告警订阅功能,优化大盘全屏展示效果,优化Grafana大盘导入的问题等等

eBPF Hello World

eBPF(extended Berkeley Packet Filter) 是一种可以在 Linux 内核中运行用户编写的程序,而不需要修改内核代码或加载内核模块的技术。本文 eBPF Hello World 是 eBPF 技术的一个快速入门教程
eBPF Hello World

论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

背景 在我们内部产品中,一直有关于网络性能数据监控需求,我们之前是直接使用 ping 命令收集结果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在重新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来监控数据中心网络情况而开发的软件,通过阅读这篇论文来学习下他们是怎么做的。
论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

使用 OpenTelemetry 构建可观测性 06 - 生态系统

过去的五篇文章讨论了如何使用 OpenTelemetry 来构建可观测性的技术细节。我认为在本博文系列的结尾介绍有关 OTel 生态系统的信息,为读者提供更全面的了解非常重要。OpenTelemetry 的发展非常迅速,对于刚接触它的人来说,可能会感到有些不知所措或困惑,不知道在哪里找到有效的信息或资源。 OpenTelemetry 是一个 CNCF 项目。但是,在 CNCF 项目中 OpenTelemetry 的表现如何?以拉取请求、问题和提交代码的数量来衡量,OpenTelemetry 是第二活跃的 CNCF 项目,仅次于 Kubernetes:
使用 OpenTelemetry 构建可观测性 06 - 生态系统

夜莺中心端管理categraf采集规则并下发

市面上常见的采集器,比如 telegraf、grafana-agent、datadog-agent 等,通常内置了多种采集插件,比如可以采集操作系统的常规指标,也可以采集 mysql、redis、mongodb、kafka、elasticsearch、jmx 等指标,但是具体要采集什么数据,通常需要在客户端采集器上进行配置,修改采集器的配置文件,比较麻烦,尤其是对于一些不太容易登录的机器,这个操作就更难实现了。
夜莺中心端管理categraf采集规则并下发

使用 OpenTelemetry 构建可观测性 05 - 传播和行李(Propagation & Baggage)

我们开发的应用程序可能具有不同的形态和架构:有些是单体应用,有些是微服务。为单体应用程序添加遥测数据相对来说简单,因为所有数据都在同一进程中。然而对于微服务应用程序,情况可能会更具挑战性。 通常,分布式微服务应用程序的不同服务之间仅通过网络连接。然而,当我们想要创建有效的链路追踪数据,就要考虑到下面的问题: 即使是微服务应用程序,我们也希望观察到从开始到结束的用户路径,这意味着跨越多个服务的边界。这就是我们所说的分布式链路追踪。不过我们如何实现这一点呢?我们如何使链路追踪信息贯穿可能是分布在多个进程,并且是不同的基础架构上呢? 传播( propagation ) 在 OpenTelemetry 中,解决这个挑战的方案是通过传播来实现。这意味着以某种方式将链路追踪 ID(和父跨度 ID)传递给被调用服务,以便它们可以将该信息添加到分布式链路追踪路径中的一个跨度上。下面是一个示意图:
使用 OpenTelemetry 构建可观测性 05 - 传播和行李(Propagation & Baggage)

使用 eBPF 在云中实现网络可观测性

可观测性是一种了解和解释应用当前状态的能力,也是一种知道何时出现问题的方法。随着在 Kubernetes 和 OpenShift 上以微服务形式进行云部署的应用程序越来越多,可观察性受到了广泛关注。许多应用程序都有严格的承诺,比如在停机时间、延迟和吞吐量方面的 SLA,因此网络层面的可观测性是一项非常必要的功能。网络层面的可观测性由不同的编排器提供,有的是内置支持,有的是通过插件和 operator 提供。 最近,eBPF(扩展的伯克利数据包过滤器)因其性能和灵活性成为在终端主机内核实现可观察性的热门选择。通过这种方法,可以在网络数据路径的某些点(如套接字、TC 和 XDP)上挂接自定义程序。目前已发布了多个基于 eBPF 的开源插件和 operator,每个插件和 operator 都可插入终端主机节点,通过云上的编排器提供网络可观察性。
使用 eBPF 在云中实现网络可观测性

使用 OpenTelemetry 构建可观测性 04 - 收集器

在之前的博文中,我们讨论了如何使用 SDK 和链路追踪生产者来导出进程中的遥测数据。尽管有多种类型的导出器可供选择,但其中一个常见的目标是将数据导出到 OpenTelemetry Collector。本篇文章将深入探讨收集器以及如何使用它。 选 OTel Collector 还是其他 正如上一篇博客文章中提到的,我谈到了使用 OTLP 导出器将数据发送到 OTel Collector。此外我还提到,对导出器来说输出遥测数据的目的地是多样的。当导出器可以直接发送到 Jaeger、Prometheus 或控制台时,为什么还要选择 OTel Collector 呢?答案是由于灵活性:
使用 OpenTelemetry 构建可观测性 04 - 收集器

夜莺项目发布v6.0.2版本,增强日志查看能力

夜莺项目发布v6.0.2版本,增强日志查看能力,提升大盘排错能力,订阅规则支持订阅业务组,仪表盘页面支持调试功能,优化Loki数据源校验逻辑。

可观测性平台夜莺开源项目发布V6正式版!

夜莺开源项目在2023.7月底发布了V6版本,这个版本开始,项目目标不止于做一款开源监控系统,而是要做一款开源可观测性平台,不过路漫漫其修远兮,初期只是把日志数据源引入并完成了基本的可视化,后续会着力打通指标和日志的数据串联以及数据特征提取。欢迎小伙伴一起参与共建。
可观测性平台夜莺开源项目发布V6正式版!

使用 OpenTelemetry 构建可观测性 03 - 导出

上一个博文中,我提到如何使用 OpenTelemery 的特定语言 API 来收集遥测数据,包含手动和自动的埋点技术,这很重要!但是,收集遥测数据只是解决方案的第一步。 你需要把遥测数据路由转发到其他地方,同时添加额外的元数据信息。这时就轮到 SDK 发挥作用了。 链路追踪生产者( Tracer Provider ) 链路追踪生产者是 SDK 中一个关键概念。用于将通过 API 收集的遥测数据与其他组件联系起来。在 Go 语言中,TracerProvider 对象只有一个 Tracer 方法的接口,方法签名如下:
使用 OpenTelemetry 构建可观测性 03 - 导出

纯粹的干货分享,CCF夜莺·2023可观测性论坛完满收官

各类技术大会越来越多,但是干货越来越少,有的大会基本全是乙方在推广产品,而且,只是吹嘘如何如何厉害,却不讲思路理念,对与会者裨益甚少。CCF夜莺·2023可观测性峰会,大量价值信息输出,好评如潮。
纯粹的干货分享,CCF夜莺·2023可观测性论坛完满收官

使用 OpenTelemetry 构建可观测性 02 - 埋点

这是讲解 OpenTelemetry 系列博客的第二篇。在上一篇博客中,我们介绍了 OpenTelemetry 是什么以及由什么组成。现在我们将讨论如何使用 OTel 准确收集遥测数据和链路追踪数据。 手动埋点 我们这里谈论“埋点”(代码插桩),是指通过技术手段采集链路追踪数据的行为。通常有两种方式:手动和自动(下面讨论)。顾名思义,手动埋点需要在软件中显式的选择要暴露哪些数据。 手动埋点被认为是更高级和定制的遥测方法。手动和自动埋点分别有各自的使用场景,我们将在下文介绍。
使用 OpenTelemetry 构建可观测性 02 - 埋点

使用 OpenTelemetry 构建可观测性 01 - 介绍

毫无疑问,在过去几年里,你可能已经多次听到过可观测性这个词。对于很多人来说,很难理解这个词的真正含义。对许多人来说,他们错误地将其等同于"监控"。虽然可观测性的根本定义以及它所包含的一切都不在本系列博文的讨论范围之内,但我强烈建议您购买一本由 Charity Majors (twitter)、Liz Fong-Jones (twitter) 和 George Miranda (twitter) 合著的《可观测性工程》(Observability Engineering)一书。
使用 OpenTelemetry 构建可观测性 01 - 介绍

FlashDuty Changelog 2023-07-24

全面增强告警降噪与协同能力
FlashDuty Changelog 2023-07-24

如何发现及处理 MySQL 主从延迟问题

MySQL 主从延迟,大都知道如何监控,但是怎么处理?
如何发现及处理 MySQL 主从延迟问题

Kubernetes OOM 和 CPU Throttling 问题

介绍 使用 Kubernetes 时,内存不足(OOM)错误和 CPU 限制(Throttling)是云应用程序中资源处理的主要难题。为什么呢? 云应用程序中的 CPU 和内存要求变得越来越重要,因为它们与您的云成本直接相关。 通过 limits 和 requests,您可以配置 pod 应如何分配内存和 CPU 资源,以防止资源匮乏并调整云成本。
Kubernetes OOM 和 CPU Throttling 问题

开源的Datadog?可观测性平台SigNoz是否名副其实?

SigNoz号称自己是开源领域的Datadog,基于OpenTelemetry做了一套可观测性方案。夜莺从V6版本开始,也希望做全栈可观测性方案,巧了,大家目标一致,今天我们一起来对SigNoz做个初步了解,看看其产品设计如何,也帮大家未来选型做参考。
开源的Datadog?可观测性平台SigNoz是否名副其实?

监控系统自监控怎么做?

监控系统用于监控其他的系统、基础设施,绝对是 P0 级的服务,那监控系统的自监控应该怎么做才能避免循环依赖呢?
监控系统自监控怎么做?

可观测性是什么? 入门指南

如果您之前对可观测性重要性,益处,以及组成不甚了解,本文是一个合适的指南手册
可观测性是什么? 入门指南

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat