包含标签 Nightingale 的文章

9k star 监控系统,100% 国产,推荐了解

夜莺监控(Nightingale)应该算是国产监控当中 star 数量最高的开源项目了,目前已经 9000 多,如果你是从事运维、运维开发、基础设施相关的工作,可以了解看看

夜莺 v7.2.1 发版,支持查看告警事件通知记录

夜莺 v7.2.1 发版,告警详情页面支持查看告警事件通知记录

开源监控 - 夜莺项目 v7 正式发版了

经过一年的迭代,夜莺 v7 于 2024.7.26 在第二届 CCF·夜莺 开发者创新论坛上正式发版

夜莺 v7.beta14 发版,支持灵活定义告警事件标签

告警事件中一大堆标签不胜其扰?尤其是 Kubernetes 的告警事件,夜莺 v7.beta14 发版,支持灵活定义告警事件标签,用最简单的方式干掉没用的标签

一张图详解开源监控夜莺(Nightingale)的架构

本文详解夜莺的架构

夜莺 v7.beta13 发版,继续优化细节

夜莺 v7.beta13 发版,继续优化细节,主要变更是提供日志的 KQL 查询模式、Prometheus 类型的数据源在即时查询时提供历史查询记录功能、记录规则提供 CRON 方式控制执行频率,可以借此指定固定时刻执行

夜莺 v7.beta12.1 发版,支持集成 Grafana

夜莺擅长处理多 Prometheus 集群的告警管理,在仪表盘这块,提供了一些内置仪表盘,但从完善度来讲,是没法和 Grafana 生态相比的,从 v7.beta12.1 版本开始,夜莺支持了内置 Grafana 仪表盘,省得大家在系统之间跳来跳去了,对于已经习惯使用 Grafana 的用户,可以考虑升级到此版本

夜莺 v7.beta11 发版,优化钉钉、企微、飞书通知

夜莺之前的版本也支持钉钉、企微、飞书通知,不过整体逻辑设计的比较绕,这个版本提供了一个更直观的配置方式,顺带优化了 at 人的功能

告警恢复时如何拿到恢复时的值?

Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了一种较为简单的内置方式,解决这个问题

夜莺监控 v7.beta8 发版,引入模板中心,修复边缘机房机器失联告警问题

这个版本建立了集成中心的框架,并且修复了边缘机房机器失联告警的Bug,建议升级

夜莺监控 v7.beta4 发版,仪表盘变量和业务组下的机器联动

仪表盘中的变量获取来源通常来自时序库,如果要查看机器相关的仪表盘数据,并做到方便的筛选,需要机器相关的指标提前打上各类标签,这个版本开始,仪表盘变量提供了一个新的筛选方式,可以和仪表盘所在业务组联动,自动获取业务组下的机器了

夜莺监控(Nightingale)上线内置指标功能

Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另一种是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nightingale)最近上线了内置指标功能,即采用方案二,效果很棒值得尝试。

已经有 Prometheus 了,还需要夜莺?

Prometheus 和 Nightingale 都被看做是监控系统,这俩是什么关系?相互替代还是相互协同?

细说夜莺监控系统告警自愈机制

虽说监控系统最侧重的功能是指标采集、存储、分析、告警,为了能够快速恢复故障,告警自愈机制也是需要重点投入建设的,所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动

夜莺监控 V7 第二个 beta 版本发布,内置集成故障自愈能力,简化部署

夜莺监控 V5 和 V6 版本都支持故障自愈功能,但是均需要单独部署 ibex 模块,从 V7 beta2 版本开始,夜莺内置集成了 ibex 模块,无需单独部署 ibex,大大简化了部署流程。

UDP端口探活的那些细节

UDP 是无连接的,无法用建立连接的形式判断端口是否存活,如何为 Categraf 实现一个简单通用的 UDP 探测插件呢?

夜莺监控发布 v6.7 版本,推送部分商业版功能

熟悉夜莺的小伙伴都知道夜莺分为开源版、专业版、企业版,三个版本良性发展。近期夜莺团队发布了 v6.7 版本,把机器Metadata管理功能推送到了开源版。

夜莺项目发布 v6.5.0 版本,暗黑菜单来了

夜莺项目发布 v6.5.0 版本,启用新 Logo,菜单支持换肤,支持了暗黑版本的菜单,全站暗黑主题在路上。

夜莺项目发布 v6.4.0 版本,新增全局宏变量功能

大家好,夜莺项目发布 v6.4.0 版本,新增全局宏变量功能,本文为大家简要介绍一下相关更新内容。 全局宏变量功能 像 SMTP 的配置中密码类型的信息,之前都是以明文的方式在页面展示,夜莺支持全局宏变量之后,可以在变量管理配置一个 smtp_password 的密码类型的变量,在 SMTP 配置页面,密码的部分使用变量,来达到信息保密的效果。

categraf托管与自升级

本文介绍categraf如何通过一条命令完成自身的托管、服务启停、状态查看、自动升级。

夜莺项目发布 v6.3.0 版本,增加 Loki 和 TDEngine 数据源支持

大家好,夜莺项目发布 v6.3.0 版本,新增 Loki 和 TDEngine 数据源支持,并持续优化部署体验,本文为大家简要介绍一下相关更新内容。 Loki、TDEngine 数据源支持 实际上,从 v6.

7k star 监控系统,100%国产,推荐了解

IT的归宿是运维,运维的归宿是监控。天下没有不宕机的系统,选择一个好用的、趁手的监控工具,是 IT 人明哲保身的必备利器。今天要给大家推介的是“100%国产”的开源监控工具夜莺监控(Nightingale)

夜莺项目发布 v6.1.0 版本,增强可观测性数据串联

夜莺项目发布 v6.1.0 版本,增强可观测性数据串联,内置自动更新 v6 所有小版本的表结构,无需再手工更新数据库表结构。

如何使用夜莺监控 PostgreSQL 数据库

Categraf 默认带了 PostgreSQL 数据库监控插件,可以直接使用,使用 Categraf 的 PostgreSQL 插件监控 PostgreSQL 数据库,也可以使用夜莺的内置 PostgreSQL 仪表盘和告警规则

夜莺项目发布v6.0.3版本,增强告警订阅功能

夜莺项目发布v6.0.3版本,增强告警订阅功能,优化大盘全屏展示效果,优化Grafana大盘导入的问题等等

夜莺项目发布v6.0.2版本,增强日志查看能力

夜莺项目发布v6.0.2版本,增强日志查看能力,提升大盘排错能力,订阅规则支持订阅业务组,仪表盘页面支持调试功能,优化Loki数据源校验逻辑。

如何发现及处理 MySQL 主从延迟问题

MySQL 主从延迟,大都知道如何监控,但是怎么处理?

开源的Datadog?可观测性平台SigNoz是否名副其实?

SigNoz号称自己是开源领域的Datadog,基于OpenTelemetry做了一套可观测性方案。夜莺从V6版本开始,也希望做全栈可观测性方案,巧了,大家目标一致,今天我们一起来对SigNoz做个初步了解,看看其产品设计如何,也帮大家未来选型做参考。

新东方老师教你使用 Telegraf + Loki + Nightingale 实现硬件监控

本期新东方的技术朋友分享了一个硬件监控的方案,使用 Telegraf 做数据采集,使用 Loki 做日志存储,使用 Nightingale 做告警规则配置,玩的挺花的,我们一起来学习一下吧

Nginx stub status采集

本文讲解如何从头开始编译http_stub_status_module模块,并使用input.nginx插件采集指标。

Nginx upstream采集

本文讲解如何添加nginx_upstream_check模块,并使用input.nginx_upstream_check插件采集指标。

Nginx vts采集

本文讲解如何添加vts模块,并使用input.prometheus插件采集指标。

夜莺V6.X架构介绍

Nightingale 夜莺 6.x 版本架构上做了调整,本文从中心部署架构和下沉部署架构两个常见场景进行介绍。

夜莺?Nightingale?快猫?Flashcat?开源?商业化?都是啥?

有些朋友不知道夜莺和快猫的关系,不知道开源版本和收费版本的关系,这个文章来解答一下这些常见问题。

不止于监控,夜莺 V6 全新升级为开源观测平台

夜莺6.0版本开始,不止是可以对接Prometheus类型的时序数据源,也可以对接Jaeger、ElasticSearch作为数据源,当然,还有很多其他更新,听我细细道来。

夜莺监控(Nightingale)6.x 的机器失联告警设计

夜莺监控(Nightingale)6.x 计划重新设计机器失联告警,不再自动生成 target_up 指标,提升即时性,并且架构上会更容易理解,具体是如何思考的呢,且听本文分解

Telegraf 发送指标给 Prometheus

Telegraf 作为一个指标层面的 all-in-one 的采集器,用途广泛,Telegraf 具备多种 output 插件,本篇介绍如何使用 prometheus remote write 方式发送数据给后端。

夜莺监控(Nightingale)6.x版本整体架构设计思考

夜莺监控(Nightingale)将会在2023年开始设计6.x版本,这个版本的架构会作何改造呢,通过本文做一个梳理,通过梳理的过程我自己也思考的更清晰一些,你也可以了解这个思考的过程。

Kubernetes监控手册11-针对部署到Pod里的应用做性能监控

Kubernetes监控手册第11篇,在Kubernetes体系里,应用程序部署在Pod里,针对这类程序应该监控,跟传统的物理机虚拟机的部署方式有何差别?

Kubernetes监控手册10-使用 kube-state-metrics 监控 Kubernetes 对象

Kubernetes监控手册第10篇,使用 kube-state-metrics 监控 Kubernetes 各类对象,比如某个 Deployment 有多少副本可用多少副本不可用,有多少 Pod 分别是什么状态之类的。

Kubernetes监控手册09-监控ETCD

Kubernetes监控手册第9篇,讲解如何监控ETCD,ETCD现在使用已经越来越广泛了,不止是Kubernetes,很多业务方也在使用,需要有个深入了解。

Kubernetes监控手册08-监控scheduler

Kubernetes监控手册第8篇,讲解 scheduler 的监控方法,scheduler 是负责调度对象到合适的 node 上,会有一系列的规则计算和筛选。重点关注调度相关的指标

Kubernetes监控手册07-监控controller-manager

Kubernetes监控手册第7篇,讲解 controller-manager 的监控方法,controller-manager 是负责监听对象状态,并与期望状态做对比,如果状态不一致则进行调谐,重点关注的是各个controller的运行情况,比如任务数量,队列深度

Kubernetes监控手册06-监控APIServer

Kubernetes监控手册第6篇,讲解APIServer的监控,APIServer作为Kubernetes全局统一API入口,是控制面的核心组件,APIServer如果出问题,各类增删改查都无法操作。

如何在监控大盘里配置图片

夜莺里有很多监控大盘,不同的组件都有自己的监控大盘,为了增强美观性,有时我们想把组件logo放到大盘里展示,具体应该如何做呢?

夜莺监控(Nightingale)中的对象列表

夜莺监控(Nightingale)中的对象列表是从哪里来的,可以手工修改吗,为什么要设计这个功能,初衷是什么

Kubernetes监控手册05-监控Kubelet

Kubernetes监控手册第5篇,讲解Kubelet的监控,Kubelet部署在工作负载节点,相比Kube-Proxy的监控数据采集,需要引入认证和HTTPS,更复杂了一些,遵循渐进式学习原则,本文带着大家在Kubernetes监控的路上,再往前一步

Nightingale|夜莺监控机器分组的设计逻辑

Nightingale|夜莺监控,取消了树状结构的机器分组,引入了一维的业务组和标签机制,为何要这么设计?具体是如何思考的?

Kubernetes监控手册04-监控Kube-Proxy

Kubernetes监控手册第4篇,讲解Kube-Proxy的监控,这个组件的监控非常简单容易,我们从这个组件入手,降低学习难度。

从应用日志中提取监控metrics

本文讲解如何使用 categraf 的 mtail 插件从应用日志中提取 metrics 指标,这种方式对于无法埋点的应用监控非常有帮助,完全无侵入性;对于系统日志中的关键字监控也非常好用

Kubernetes监控手册03-宿主监控实操

Kubernetes监控手册第3篇,讲解Kubernetes所在宿主机的监控,我们通过Categraf来实现机器指标的采集,演示相关操作

Kubernetes监控手册02-宿主监控概述

Kubernetes监控手册第2篇,讲解Kubernetes所在宿主机的监控,主要是针对OS的CPU、内存等指标的监控,和传统的物理机虚拟机时代并无太大差别。

Kubernetes监控手册01-体系介绍

Kubernetes监控手册第1篇,从整体做一个介绍,让我们一起来看一下Kubernetes监控都是在监控哪些方面的内容

Zabbix 和夜莺监控选型对比

有没有一个现代化的、简单好用的监控产品,既可以满足传统架构的监控需求,又可以适用K8s时代微服务架构的监控、混合云的监控

让技术团队用上有设计感的监控工具,夜莺新版做到了

夜莺新版本发布,重新做了设计,启用紫色系,设计是如何考虑的,怎么更易用,更有设计感,持续打磨中

解决运维稳定性难题,夜莺监控助力方正证券研发提效

证券行业是对稳定性要求非常高的行业,方正证券日成交额过亿,对稳定性要求很高,引入夜莺监控解决了故障发现难题,是稳定性的有力工具

映客直播使用夜莺监控,支撑5亿时间线节省8成费用

映客直播使用夜莺监控,建设公司级运维监控平台,支撑了每个采集周期5亿数据点的上报,帮助公司节省八成费用

云原生监控的十大特点和趋势

云原生时代,监控系统需要具备哪些能力和特点,云原生监控选型要注意这些点

监控告警平台的国产化选择—Rancher 与夜莺的集成实践

身为Kubernetes管理平台的Rancher,通过 Nightingale Helm Chart,可以很方便的集成夜莺监控

夜莺监控成为CCF托管开源项目

夜莺监控开源项目,由滴滴捐赠给中国计算机学会开源发展委员会(CCF ODC),成为CCF接收捐赠的首个产业界开源项目
标签
aiops alertmanager apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elastalert elasticsearch etcd etl flashcat flashduty flashduty-changelog gdpr gitops golang google grok_exporter hadoop haproxy hdfs httpstat iac ilo im协同 jaeger jenkins jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logging logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opentelemetry oracle监控 otel pagerduty pingmesh postgresql product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警oncall 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警收敛 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 灭火图 企业微信 人工智能 日志 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty