重构 Categraf SNMP 调度器：从随机抖动到确定性自适应

宋芮涛@Zenlayer 孔飞@快猫星云 2026-01-09 11:15:10

引言

SNMP (Simple Network Management Protocol) 是网络监控领域的常青树，但由于其协议本身的古老特性（基于 UDP、低速、对设备 CPU 敏感），在大规模高并发采集场景下，调度策略的优劣直接决定了系统的稳定性。

近期，我们在 Categraf 的 snmp_zabbix 插件中遇到了一系列问题：采集周期漂移、设备响应超时、以及“锯齿状”的数据断点。为了彻底解决这些问题，我们对调度核心进行了重构，从简单的定时器进化为基于最小堆的确定性调度，并引入了“自适应流控”算法。本文将记录这一演进过程。

第一阶段：定时器 + Jitter (简单的代价)

最初的设计非常直观：为每个采集任务启动一个 Go Ticker。

ticker := time.NewTicker(interval)
for range ticker.C {
    collect()
}

为了防止所有任务同时触发（惊群效应），我们加入了一个随机的 Jitter（抖动）启动延迟。

存在的问题

重启即乱序：Jitter 是随机的。每次进程重启，所有任务的相位都会重新随机分布。这导致在这分钟可能均匀分布，下分钟重启后可能依然发生了“碰撞”。
漂移累积：Ticker 虽然尽力保证间隔，但如果采集本身耗时超过了 Interval（Cycle Overrun），Ticker 会尝试追赶或跳过，导致采集时间点不可预测地向后漂移。
资源管理困难：如果有 10,000 个监控项，就意味着 10,000 个 goroutine 或 ticker，资源开销大。

第二阶段：向 Zabbix 取经 (确定性调度)

Zabbix 作为老牌监控系统，在 SNMP 调度上有着极深的积累。通过研读源码，我们提取了两个核心概念：最小堆（Min-Heap） 与 墙上时钟对齐（Wall Clock Alignment）。

1. 最小堆管理

我们不再为每个 Item 创建 Ticker，而是将所有待采集的 Items 放入一个优先级队列（最小堆），按照“下一次计划执行时间”排序。

调度主循环变得极其高效：

Peek: 看一眼堆顶元素的执行时间 NextRun。
Sleep: 休眠到 NextRun 时刻。
Pop & Execute: 取出任务，扔给工作池执行。
Reschedule: 计算新的下一次时间，Push 回堆。

2. 墙上时钟对齐 (Wall Clock)

这是解决“重启乱序”的关键。我们不再使用 time.Now() + interval 这种相对时间，而是基于 Epoch 时间戳进行取模对齐。

// 确定性算法：无论何时重启，同一个 Agent 的同一个 Interval，
// 计算出的偏移量 Offset 永远是固定的。
offset := hash(agent_ip) % interval
nextRun := time.Now().Truncate(interval).Add(offset)

优势：

确定性：Agent A 永远在 :05 秒采集，Agent B 永远在 :10 秒采集。无论 Categraf 重启多少次，这个相位固定不变。
平滑分布：通过对 Agent IP 进行 Hash 取模，天然地将任务均匀打散在时间轴上。

第三阶段：自适应流控 (Adaptive Pacing)

解决了“何时开始采集”的问题后，我们遇到了新问题：流量突发。

即使调度准确，当一个 Agent 需要采集 1000 个 OID 时，如果我们并发或者瞬间把这 1000 个请求发出去，老旧的网络设备 CPU 会瞬间飙升，导致丢包和超时。

失败的尝试：固定 BatchInterval

最初，我们开放了一个 batch_interval 配置，让用户设置每批请求后的休眠时间（例如 100ms）。

结果：用户很难配置正确。

配小了：没效果，设备还是挂。
配大了：采集耗时超过了采集周期（例如 1分钟的周期，采了 70秒），导致下一轮采集无法按时开始，依然出现“锯齿”断图。

最终方案：0.85 因子自适应算法

我们引入了 Adaptive Pacing 算法，不再让用户猜 sleep 时间，而是由算法反推。

核心逻辑：

我们希望采集任务在当前周期内肯定能做完，但又尽可能拖得长一点（慢一点），不要太快。

公式：

TargetDuration = Interval*0.85
SleepPerBatch = TargetDuration/BatchCount - NetworkCost

代码实现细节：

// collector.go

// 计算目标耗时：周期的 85%。
// 留出的 15% 作为 Buffer，应对网络波动，防止 Overrun。
targetBatchDuration := calculateTargetBatchTime(interval, numBatches)

for i := 0; i < totalItems; i += batchSize {
    start := time.Now()
    
    // 执行真正的 SNMP 网络请求
    doSNMPRequest(batchItems)
    
    // 动态计算剩余需要休眠的时间
    // 能够自动扣除掉网络请求本身的耗时
    if targetBatchDuration > 0 {
        elapsed := time.Now().Sub(start)
        sleepTime := targetBatchDuration - elapsed
        if sleepTime > 0 {
            time.Sleep(sleepTime)
        }
    }
}

算法优势：

永不超期：严格控制总耗时在 Interval 的 85% 以内，杜绝了采集周期重叠的问题。
流量平滑：自动将 1000 个请求均匀地“铺满”这 85% 的时间，也就是所谓的“流量整形”（Traffic Shaping）。
零配置：用户无需关心 batch_interval，由算法自动适配不同的 Interval（1分钟或5分钟）和 Batch 数量。

技术细节

除了上述策略调整，我们在实现上也做了如下考量。

1. 强制 OID 排序 (Strict Determinism)

在进行 Batch 分组前，我们强制对采集的 Items 按 OID 字典序排序。

sort.Slice(items, func(i, j int) bool {
    return items[i].OID < items[j].OID
})

这一步不仅是为了美观，更是为了确定性。如果没有排序，Go map 的随机迭代顺序会导致每次 Batch 分组不一致。Agent 可能这一次 Batch 1 是 CPU 类 OID（响应快），下一次 Batch 1 是硬盘类 OID（响应慢）。这种微小的抖动会干扰 Adaptive Pacing 的计算。排序保证了每次打包的“内容物”完全一致，让流控算法面对的是完全确定的负载。

2. 剥离 BatchSize 与 MaxRepetitions

许多初学者容易混淆这两个概念。以前的代码也存在这个问题。

MaxRepetitions: 是 SNMP 协议层参数，专门用于 GetBulk 操作，决定一次“向后”拿多少个值。
BatchSize: 是应用层参数，决定我们将多少个独立的 OID 塞进一个 Get PDU 包中。

将二者彻底解耦后，我们的配置更加清晰。用户可以为了减少包数量调大 BatchSize，同时为了保护设备调小 MaxRepetitions，互不干扰。

3. 单包特化与降级机制

针对 BatchSize=1 的场景，我们做了“特化路径”优化，跳过了切片分配等开销，直接复用底层对象。

更重要的是降级机制（Fallback）：当一个 Batch 请求（例如包含 10 个 OID）失败时，我们并没有直接丢弃这组数据，而是自动降级为“逐个采集”模式。这极大地提高了在网络不稳定环境下的数据采集成功率。

4. 为什么要减去 NetworkCost？

在计算休眠时间时，我们使用 targetBatchDuration - elapsed 而不是直接 time.Sleep(targetBatchDuration)。这是因为网络 RTT 本身就是耗时的一部分。如果目标间隔是 100ms，而网络 RTT 是 90ms，我们只需要休眠 10ms。如果我们傻傻地休眠 100ms，总间隔就变成了 190ms，会导致严重的采集滞后。