Zenlayer 公网质量监控平台实践：从 SmokePing 到拨测与 IQSM 评分模型

一、公司与业务背景

Zenlayer 是一家面向 AI 的分布式边缘云提供商，总部位于美国洛杉矶，在新加坡、上海、孟买、东京、河内等城市设有分支机构，拥有 600 多名员工，为全球各行业头部客户提供专业服务。Zenlayer 依托覆盖 50 多个国家和地区的 300 多个边缘节点，以及超过 220+ Tbps 的全球网络带宽资源，提供 GPU 云及分布式推理、AI 网关、AI 网络，以及分布式云计算、云网络和全球数据中心服务，持续帮助企业提升全球用户的数字体验。

围绕全球连接与计算能力，Zenlayer 的核心业务集中在公网加速、跨境网络连接以及云资源调度等场景。在这些典型的全球化业务中，一个问题始终存在：用户体验，往往直接取决于公网链路质量。

然而公网网络具有天然复杂性。路径会动态变化，不同运营商策略存在差异，跨境链路也常常不稳定，使得公网长期处于一种"不可观测、不可量化"的状态。

而这，恰恰是最关键、也是最难被观测的一部分。

二、问题拆解：为什么公网监控如此困难？

在实践过程中我们很快发现，问题并不在于"能不能测"，而在于：测出来的数据是否真正"有意义"。进一步拆解后，可以归纳为三个层面的挑战。

首先是规模问题。公网 IP 数量极其庞大，如果尝试做全量扫描，无论是成本还是调度复杂度，都难以控制，工程上几乎不可行。

其次是数据问题。单点观测极易受到瞬时网络波动的影响，噪声非常大；而如果采用随机采样，又很容易失去统计意义，无法代表真实网络状况。

最后是模型问题。延迟（latency）、丢包（loss）、抖动（jitter）这些指标彼此割裂，很难统一映射为"用户体验"这一更高层的目标。

因此，我们的目标不再是简单构建一个"监控工具"，而是尝试打造一套可以长期运行、能够支撑决策的公网质量评估体系。

三、早期探索

在最初阶段，我们基于 SmokePing 构建了一套分布式探测体系。它以简单稳定著称，依赖较少，部署成本低，在探测节点数量较少、规模尚不复杂的阶段，几乎是一个"开箱即用"的理想选择。

但随着系统规模的不断扩大，当探测节点从最初的几个增长到上百个（100+），探测目标 IP 扩展到数万，并分布在不同地域和网络环境中时，其局限性开始逐渐显现。

首先出现的问题是节点管理逐步失控。新增一个探测点，需要手动部署和配置；如果需要调整探测目标到不同的节点上进行对比测试，需要逐台修改，这种方式在节点数量达到几十甚至上百时，几乎不可持续。同时，随着监控目标不断增加，单机很快触及性能瓶颈，缺乏横向扩展能力的问题也愈发明显。

其次是配置无法统一。在缺乏中心化控制的情况下，配置文件分散在各个节点上，不同节点之间很容易出现配置漂移（configuration drift）：有的节点已经更新了目标列表，有的仍停留在旧版本；有的探测频率发生变化，有的却缺少关键监控项。最终导致数据口径不一致，直接影响分析结果的可信度。

再者是告警能力较弱。传统 SmokePing 更偏向数据展示，在复杂公网场景中缺乏有效的多维分析与告警能力，难以支撑问题的快速定位。

与此同时，系统也缺乏自助化能力。业务侧如果希望新增监控目标或临时增加探测区域，必须依赖运维介入。这不仅响应慢，也使系统难以支撑灵活变化的业务需求。更关键的是，其架构相对传统，缺乏完善的 API 能力，导致自动化与平台化能力受限。

但最本质的问题，仍然是数据层面的割裂。各节点独立运行，数据彼此隔离，缺乏统一视图；而 RRD 的存储机制又会压缩历史精度，使得复杂分析几乎无法开展。

四、初级优化和目标重构

为了解决大规模 SmokePing 部署下的节点管理失控、配置难以统一以及缺乏自助化能力等问题，我们自研构建了一套分布式 SmokePing 管理系统 —— SmokeCAT。

这一阶段的核心，并不在于替代 SmokePing 探测能力本身，而是在原有体系之上引入统一控制面，从根本上重构整体部署、配置和使用的管理方式。

通过这一系统，我们实现了三个关键收敛。

首先是节点的集中纳管。分散的 100+ 探测节点被统一接入平台，形成资源池，节点从"逐台手工维护"转变为"可调度、可扩展的基础设施"，有效缓解了单机瓶颈和扩展问题。

其次是配置的中心化与自动同步。所有探测目标与策略由中心统一管理，并自动分发到各节点，从而消除了配置漂移问题，确保全网数据口径一致。

第三是全面的自助化与 API 化能力。节点增删、目标配置等操作被平台化、接口化，业务侧可以自助完成，大幅降低了对人工运维的依赖，同时显著提升了效率与灵活性。

不过需要明确的是，这一阶段解决的主要仍然是"如何高效管理探测"的问题，而数据层能力依然缺失。数据依然存在割裂，缺乏统一视图，同时 RRD 带来的历史精度损失与分析能力不足依旧存在。

由此，我们对未来整个系统能力进一步抽象为三层体系：测量层、数据层和决策层，分别对应探测覆盖、数据统一以及决策支撑能力。

最终目标是构建一套可持续运行的公网质量监控与评估平台，用于长期监控公网网络质量，让"看不见"的网络变得可量化、可分析、可行动。并为后续的网络优化、调度策略提供数据基础。

五、公网质量监控平台重构

本次为了彻底重构公网质量平台，我们对比了多种方案（自研、开源、外包、商业软件等），从成本和功能角度考虑，我们顺势引入了专业全栈可观测性解决方案提供商的拨测能力，并在此基础上完成了新一轮的公网质量监控平台重构。

拨测本质上是一种模拟真实用户访问路径的网络检测方式。通过从不同地域、不同节点持续发起探测请求，可以获得时延、丢包率、成功率等关键指标，从而更接近真实用户体验地评估网络质量与服务可用性。

首先是在测量层面，从"能测"走向"测得准"。拨测能力需要支持 HTTP、ICMP、TCP、UDP 等协议，并通过分布式节点执行任务。同时探测结果以结构化方式输出，使数据可以直接进入分析链路。

其次是在数据层面，从"数据孤岛"走向"统一数据底座"。将指标、日志、事件统一管理，通过标签（tags）可以支持多维度聚合（如国家、ASN、运营商），并具备长期存储与灵活查询能力。这使我们第一次可以从全局多维度视角理解公网质量，而不再局限于单点观察。

在告警与诊断方面，系统也从"报警"升级为"定位"。我们可以基于多运营商对比进行丢包分析，识别单运营商异常，并结合 MTR 实现路径级诊断，同时自动生成综合分析报告。借助灭火图、事件墙等机制，复杂问题也具备了清晰的可视化表达能力。

最后是在自动化能力上，通过完整的 API 体系，使我们能够自动更新拨测 IP、动态下发任务，并与自研的样本筛选和评分模型系统联动，从而让整个系统具备持续运行与自动演进的能力，而不再依赖人工维护。

和上次一样，本次项目升级改造的关键变化不在于"换了一个工具"，而在于解决了过去长期无法解决的核心问题。

六、系统架构：筛 → 测 → 评的工程化落地

公网质量监控平台整个系统围绕一个核心闭环展开，即"筛 → 测 → 评"。

1. 筛（Sampling）

在"筛"的阶段，面对海量公网 IP，我们不再追求全量扫描，而是基于 ASN、地域等维度进行抽样，选取具有代表性的高质量样本，并对样本集合进行动态维护。这种"样本化"策略，在显著降低成本的同时，也提升了数据的统计意义。

2. 测（Measurement）

在"测"的阶段，依托 Zenlayer 的全球分布式节点，通过 agent 的拨测能力持续执行 Ping、MTR、TCP 等探测任务，获取真实链路质量数据。相比瞬时结果，我们更关注长期趋势。

所有数据实时进入统一数据平台，并结合 VictoriaMetrics 与 VictoriaLogs，在实际运行中稳定承载千万级数据规模。

3. 评（Evaluation）

在"评"的阶段，我们通过多维度可视化（国家、运营商、区域）以及告警机制，将原始观测数据转化为可理解的业务角度信息，并最终服务于网络调度与优化决策。其核心思想，是将海量原始数据压缩为可行动的指标。

三层系统结构

层级	职责	要求
用户层	任务管理、可视化、分析、告警处理	真实拨测数据 + 告警能力
控制层	样本筛选、评分模型、调度	API + 拨测任务管理
拨测层	实际探测执行	数据支撑 + 核心拨测能力

整体架构的概念图如下：

七、系统亮点

核心机制

在海量公网 IP 场景下，全量扫描成本高且收益有限，因此我们将问题从"全量遍历"转化为"统计估计与动态决策"。系统通过按 ASN、地域等维度进行分层抽样，构建一个具有代表性的动态样本集合，在控制成本的同时保留全局的结构代表性。这里的关键点在于：

每个 ASN 保证最小样本数（避免偏置）
地域维度保证覆盖（避免"局部最优"）
控制总样本规模

进一步的，系统会持续、不间断地对每个 IP 进行周期性评分，并对样本集合进行动态调整：高质量 IP 持续保留并优先参与拨测，低质量 IP 动态淘汰，同时周期性引入新的候选 IP 进行补充与评估，实现拨测目标集合的自动更新与优化。确保拨测任务始终聚焦于高质量、稳定可靠的 IP。

由此，拨测任务不再依赖人工维护，而是能够随着网络状态变化自动演进，具备长期自我优化的能力，形成"采样 —— 评估 —— 调整 —— 循环优化"的闭环，从而提升整体拨测数据的有效性与代表性。

IQSM（IP Quality Scoring Model）简介

如上所说，IQSM 是用于判断一个 IP 是否具备进入优质目标池的条件，用可量化的质量评分替代人工规则。

该模型围绕 IP 的四个核心问题展开：

是否在线（连通性） — 评估 IP 当前能否成功响应探测。
稳定性（丢包率） — 衡量 IP 在连续探测中的可靠性，高丢包率意味着不稳定。
持续性（连续在线时长） — 反映 IP 长期可用性，长期稳定在线的 IP 更值得信赖。
性能平稳性（延迟抖动） — 关注 IP 的响应延迟是否稳定，通过平滑处理（如 EWMA）降低短时波动影响评分。

随后，利用惩罚函数、饱和函数与截断机制，将这些多维指标压缩为一个单一、可比较的分值，为样本池管理和拨测任务提供决策依据。

实现原理如下：

定义IP在时刻 $t$ 的状态向量：

其质量评估分数由如下递推系统给出：

1、状态更新（State Evolution）

含义：

$L_{t}^{*}$：对性能的指数平滑估计
$U_{t}$：对连续稳定性的状态驱动累积
$p_{t}$：对可靠性的统计估计

2、评分函数（Score Mapping）

3、归一化

八、总结和未来方向

经过近一年的持续迭代与部署，该平台已经达到较大规模：数百个探测节点、数十万样本 IP、万级高质量 IP 以及百万级并发探测任务。

但更重要的，是能力层面的变化。

在技术层面，样本化监控显著降低了成本，同时提升了数据稳定性与告警准确率，无效 IP 的比例明显下降。

在业务层面，平台已经能够支撑自动化调度决策、运营商质量评估以及区域级故障定位，使网络优化从"经验驱动"转向"数据驱动"。同时，通过对外输出标准化的公网质量报告，也有效提升了客户的信任度。

目前，该体系已经在多个关键场景中发挥作用。例如在运营商评估中，可以横向对比不同运营商网络质量，为采购提供依据；在故障定位中，可以快速收敛问题区域，精确到国家或运营商维度；在网络优化过程中，可以对优化前后的效果进行量化验证。

通过样本化监控、持续测量以及统一评分模型，并借助专业高效便捷的拨测能力，我们构建了一套可扩展的公网监控平台。逐步从单一指标监控演进为面向用户体验的网络质量评估体系，初步实现了从"不可见"到"可决策"的转变——将公网质量转化为可量化、可分析、可行动的数据资产，为网络优化与业务体验提供了坚实基础。

展望未来，我们将继续沿着"用户体验驱动"的方向演进。一方面，引入 CEI（Customer Experience Index），将网络质量进一步映射为用户体验指标；另一方面，支持不同业务场景的差异化建模，例如游戏更关注延迟，而音视频更关注丢包。同时，评分模型也将逐步走向可配置化，使不同业务能够根据自身特点调整权重，从而实现更精细化的决策能力。