Zenlayer 公网质量监控平台实践:从 SmokePing 到拨测与 IQSM 评分模型

本文介绍 Zenlayer 面向全球边缘云业务构建公网质量监控平台的实践,涵盖 SmokePing 与 SmokeCAT 的早期探索、分布式拨测、样本筛选、VictoriaMetrics/VictoriaLogs 数据底座以及 IQSM IP 质量评分模型。

作者 Zenlayer

一、公司与业务背景

Zenlayer 是一家面向 AI 的分布式边缘云提供商,总部位于美国洛杉矶,在新加坡、上海、孟买、东京、河内等城市设有分支机构,拥有 600 多名员工,为全球各行业头部客户提供专业服务。Zenlayer 依托覆盖 50 多个国家和地区的 300 多个边缘节点,以及超过 220+ Tbps 的全球网络带宽资源,提供 GPU 云及分布式推理、AI 网关、AI 网络,以及分布式云计算、云网络和全球数据中心服务,持续帮助企业提升全球用户的数字体验。

围绕全球连接与计算能力,Zenlayer 的核心业务集中在公网加速、跨境网络连接以及云资源调度等场景。在这些典型的全球化业务中,一个问题始终存在:用户体验,往往直接取决于公网链路质量。

然而公网网络具有天然复杂性。路径会动态变化,不同运营商策略存在差异,跨境链路也常常不稳定,使得公网长期处于一种"不可观测、不可量化"的状态。

而这,恰恰是最关键、也是最难被观测的一部分。

二、问题拆解:为什么公网监控如此困难?

在实践过程中我们很快发现,问题并不在于"能不能测",而在于:测出来的数据是否真正"有意义"。进一步拆解后,可以归纳为三个层面的挑战。

首先是规模问题。公网 IP 数量极其庞大,如果尝试做全量扫描,无论是成本还是调度复杂度,都难以控制,工程上几乎不可行。

其次是数据问题。单点观测极易受到瞬时网络波动的影响,噪声非常大;而如果采用随机采样,又很容易失去统计意义,无法代表真实网络状况。

最后是模型问题。延迟(latency)、丢包(loss)、抖动(jitter)这些指标彼此割裂,很难统一映射为"用户体验"这一更高层的目标。

因此,我们的目标不再是简单构建一个"监控工具",而是尝试打造一套可以长期运行、能够支撑决策的公网质量评估体系。

三、早期探索

在最初阶段,我们基于 SmokePing 构建了一套分布式探测体系。它以简单稳定著称,依赖较少,部署成本低,在探测节点数量较少、规模尚不复杂的阶段,几乎是一个"开箱即用"的理想选择。

但随着系统规模的不断扩大,当探测节点从最初的几个增长到上百个(100+),探测目标 IP 扩展到数万,并分布在不同地域和网络环境中时,其局限性开始逐渐显现。

首先出现的问题是节点管理逐步失控。新增一个探测点,需要手动部署和配置;如果需要调整探测目标到不同的节点上进行对比测试,需要逐台修改,这种方式在节点数量达到几十甚至上百时,几乎不可持续。同时,随着监控目标不断增加,单机很快触及性能瓶颈,缺乏横向扩展能力的问题也愈发明显。

其次是配置无法统一。在缺乏中心化控制的情况下,配置文件分散在各个节点上,不同节点之间很容易出现配置漂移(configuration drift):有的节点已经更新了目标列表,有的仍停留在旧版本;有的探测频率发生变化,有的却缺少关键监控项。最终导致数据口径不一致,直接影响分析结果的可信度。

再者是告警能力较弱。传统 SmokePing 更偏向数据展示,在复杂公网场景中缺乏有效的多维分析与告警能力,难以支撑问题的快速定位。

与此同时,系统也缺乏自助化能力。业务侧如果希望新增监控目标或临时增加探测区域,必须依赖运维介入。这不仅响应慢,也使系统难以支撑灵活变化的业务需求。更关键的是,其架构相对传统,缺乏完善的 API 能力,导致自动化与平台化能力受限。

但最本质的问题,仍然是数据层面的割裂。各节点独立运行,数据彼此隔离,缺乏统一视图;而 RRD 的存储机制又会压缩历史精度,使得复杂分析几乎无法开展。

四、初级优化和目标重构

为了解决大规模 SmokePing 部署下的节点管理失控、配置难以统一以及缺乏自助化能力等问题,我们自研构建了一套分布式 SmokePing 管理系统 —— SmokeCAT。

这一阶段的核心,并不在于替代 SmokePing 探测能力本身,而是在原有体系之上引入统一控制面,从根本上重构整体部署、配置和使用的管理方式。

通过这一系统,我们实现了三个关键收敛。

首先是节点的集中纳管。分散的 100+ 探测节点被统一接入平台,形成资源池,节点从"逐台手工维护"转变为"可调度、可扩展的基础设施",有效缓解了单机瓶颈和扩展问题。

其次是配置的中心化与自动同步。所有探测目标与策略由中心统一管理,并自动分发到各节点,从而消除了配置漂移问题,确保全网数据口径一致。

第三是全面的自助化与 API 化能力。节点增删、目标配置等操作被平台化、接口化,业务侧可以自助完成,大幅降低了对人工运维的依赖,同时显著提升了效率与灵活性。

不过需要明确的是,这一阶段解决的主要仍然是"如何高效管理探测"的问题,而数据层能力依然缺失。数据依然存在割裂,缺乏统一视图,同时 RRD 带来的历史精度损失与分析能力不足依旧存在。

由此,我们对未来整个系统能力进一步抽象为三层体系:测量层、数据层和决策层,分别对应探测覆盖、数据统一以及决策支撑能力。

最终目标是构建一套可持续运行的公网质量监控与评估平台,用于长期监控公网网络质量,让"看不见"的网络变得可量化、可分析、可行动。并为后续的网络优化、调度策略提供数据基础。

五、公网质量监控平台重构

本次为了彻底重构公网质量平台,我们对比了多种方案(自研、开源、外包、商业软件等),从成本和功能角度考虑,我们顺势引入了专业全栈可观测性解决方案提供商的拨测能力,并在此基础上完成了新一轮的公网质量监控平台重构。

拨测本质上是一种模拟真实用户访问路径的网络检测方式。通过从不同地域、不同节点持续发起探测请求,可以获得时延、丢包率、成功率等关键指标,从而更接近真实用户体验地评估网络质量与服务可用性。

首先是在测量层面,从"能测"走向"测得准"。拨测能力需要支持 HTTP、ICMP、TCP、UDP 等协议,并通过分布式节点执行任务。同时探测结果以结构化方式输出,使数据可以直接进入分析链路。

其次是在数据层面,从"数据孤岛"走向"统一数据底座"。将指标、日志、事件统一管理,通过标签(tags)可以支持多维度聚合(如国家、ASN、运营商),并具备长期存储与灵活查询能力。这使我们第一次可以从全局多维度视角理解公网质量,而不再局限于单点观察。

在告警与诊断方面,系统也从"报警"升级为"定位"。我们可以基于多运营商对比进行丢包分析,识别单运营商异常,并结合 MTR 实现路径级诊断,同时自动生成综合分析报告。借助灭火图、事件墙等机制,复杂问题也具备了清晰的可视化表达能力。

最后是在自动化能力上,通过完整的 API 体系,使我们能够自动更新拨测 IP、动态下发任务,并与自研的样本筛选和评分模型系统联动,从而让整个系统具备持续运行与自动演进的能力,而不再依赖人工维护。

和上次一样,本次项目升级改造的关键变化不在于"换了一个工具",而在于解决了过去长期无法解决的核心问题。

六、系统架构:筛 → 测 → 评 的工程化落地

公网质量监控平台整个系统围绕一个核心闭环展开,即"筛 → 测 → 评"。

1. 筛(Sampling)

在"筛"的阶段,面对海量公网 IP,我们不再追求全量扫描,而是基于 ASN、地域等维度进行抽样,选取具有代表性的高质量样本,并对样本集合进行动态维护。这种"样本化"策略,在显著降低成本的同时,也提升了数据的统计意义。

2. 测(Measurement)

在"测"的阶段,依托 Zenlayer 的全球分布式节点,通过 agent 的拨测能力持续执行 Ping、MTR、TCP 等探测任务,获取真实链路质量数据。相比瞬时结果,我们更关注长期趋势。

所有数据实时进入统一数据平台,并结合 VictoriaMetrics 与 VictoriaLogs,在实际运行中稳定承载千万级数据规模。

3. 评(Evaluation)

在"评"的阶段,我们通过多维度可视化(国家、运营商、区域)以及告警机制,将原始观测数据转化为可理解的业务角度信息,并最终服务于网络调度与优化决策。其核心思想,是将海量原始数据压缩为可行动的指标。

三层系统结构

层级 职责 要求
用户层 任务管理、可视化、分析、告警处理 真实拨测数据 + 告警能力
控制层 样本筛选、评分模型、调度 API + 拨测任务管理
拨测层 实际探测执行 数据支撑 + 核心拨测能力

整体架构的概念图如下:

七、系统亮点

核心机制

在海量公网 IP 场景下,全量扫描成本高且收益有限,因此我们将问题从"全量遍历"转化为"统计估计与动态决策"。 系统通过按 ASN、地域等维度进行分层抽样,构建一个具有代表性的动态样本集合,在控制成本的同时保留全局的结构代表性。这里的关键点在于:

  • 每个 ASN 保证最小样本数(避免偏置)
  • 地域维度保证覆盖(避免"局部最优")
  • 控制总样本规模

进一步的,系统会持续、不间断地对每个 IP 进行周期性评分,并对样本集合进行动态调整:高质量 IP 持续保留并优先参与拨测,低质量 IP 动态淘汰,同时周期性引入新的候选 IP 进行补充与评估,实现拨测目标集合的自动更新与优化。确保拨测任务始终聚焦于高质量、稳定可靠的 IP。

由此,拨测任务不再依赖人工维护,而是能够随着网络状态变化自动演进,具备长期自我优化的能力,形成"采样 —— 评估 —— 调整 —— 循环优化"的闭环,从而提升整体拨测数据的有效性与代表性。

IQSM(IP Quality Scoring Model)简介

如上所说,IQSM 是用于判断一个 IP 是否具备进入优质目标池的条件,用可量化的质量评分替代人工规则。

该模型围绕 IP 的四个核心问题展开:

  1. 是否在线(连通性) — 评估 IP 当前能否成功响应探测。
  2. 稳定性(丢包率) — 衡量 IP 在连续探测中的可靠性,高丢包率意味着不稳定。
  3. 持续性(连续在线时长) — 反映 IP 长期可用性,长期稳定在线的 IP 更值得信赖。
  4. 性能平稳性(延迟抖动) — 关注 IP 的响应延迟是否稳定,通过平滑处理(如 EWMA)降低短时波动影响评分。

随后,利用惩罚函数、饱和函数与截断机制,将这些多维指标压缩为一个单一、可比较的分值,为样本池管理和拨测任务提供决策依据。

实现原理如下:

定义IP在时刻 $t$ 的状态向量:

其质量评估分数由如下递推系统给出:

1、状态更新(State Evolution)

含义:

  • $L_{t}^{*}$:对性能的指数平滑估计
  • $U_{t}$:对连续稳定性的状态驱动累积
  • $p_{t}$:对可靠性的统计估计

2、评分函数(Score Mapping)

3、 归一化

八、总结和未来方向

经过近一年的持续迭代与部署,该平台已经达到较大规模:数百个探测节点、数十万样本 IP、万级高质量 IP 以及百万级并发探测任务。

但更重要的,是能力层面的变化。

在技术层面,样本化监控显著降低了成本,同时提升了数据稳定性与告警准确率,无效 IP 的比例明显下降。

在业务层面,平台已经能够支撑自动化调度决策、运营商质量评估以及区域级故障定位,使网络优化从"经验驱动"转向"数据驱动"。同时,通过对外输出标准化的公网质量报告,也有效提升了客户的信任度。

目前,该体系已经在多个关键场景中发挥作用。例如在运营商评估中,可以横向对比不同运营商网络质量,为采购提供依据;在故障定位中,可以快速收敛问题区域,精确到国家或运营商维度;在网络优化过程中,可以对优化前后的效果进行量化验证。

通过样本化监控、持续测量以及统一评分模型,并借助专业高效便捷的拨测能力,我们构建了一套可扩展的公网监控平台。逐步从单一指标监控演进为面向用户体验的网络质量评估体系,初步实现了从"不可见"到"可决策"的转变——将公网质量转化为可量化、可分析、可行动的数据资产,为网络优化与业务体验提供了坚实基础。

展望未来,我们将继续沿着"用户体验驱动"的方向演进。一方面,引入 CEI(Customer Experience Index),将网络质量进一步映射为用户体验指标;另一方面,支持不同业务场景的差异化建模,例如游戏更关注延迟,而音视频更关注丢包。同时,评分模型也将逐步走向可配置化,使不同业务能够根据自身特点调整权重,从而实现更精细化的决策能力。

延伸路径

继续看解决方案和产品对比

如果你正在做监控、可观测性或故障定位相关选型,建议从解决方案和产品对比继续往下看。

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云