Prometheus 14 点实践经验分享

这是 2017 年 PromCon 的分享，原文地址在这里，作者 Julius Volz。虽然已经过去多年，有些实践经验还是非常值得学习。做个意译，加入一些自己的理解，分享给大家。

核心要点摘要

Prometheus 埋点要先保证覆盖面：服务模块要暴露指标，并结合 USE、RED 等方法论设计关键指标。
指标命名和标签设计会直接影响查询、告警和存储成本，尤其要避免高基数标签。
Counter 类型指标建议先 rate() 再 sum()，否则重启导致的计数器重置可能被错误处理。
告警应该优先针对用户可感知的症状，而不是只对底层原因指标告警。
告警规则要保留关键标签、配置持续时长，并处理 target down 或 target absent 的情况。

14 点实践速览

分类	实践
埋点	所有模块都要埋点；借鉴 USE；借鉴 RED；指标命名要规范；注意标签基数；统计失败+总量；初始化指标；避免无法识别的额外信息标签
告警	告警症状而非原因；注意 target 缺失告警；配置持续时长；保留关键标签
查询	查询表达式过滤到 job 颗粒度；注意 `rate()` 和 `sum()` 的顺序

埋点方面

1. 所有模块都要埋点

我印象中 Google 有个规范，所有的服务模块，都需要通过 HTTP /varz 接口暴露监控指标，即便是一个纯后端的 RPC 服务，也要暴露一个这样的 HTTP 接口。当然，实操的话，应该是通过框架来统一埋点，但是统一埋点只能埋入一些通用的指标，如果涉及一些自身业务逻辑相关的，还是需要自行埋点。

2. 借鉴 USE 方法论

USE 方法论，即 Utilization、Saturation、Errors 三个维度，即资源的使用率、饱和度、错误。这三个维度，可以用来衡量一个资源是否健康，如果有一个维度不健康，就需要考虑扩容或者优化。USE 方法论提出者是著名大神 Brendan Gregg，他的博客里有很多关于性能优化的文章，非常值得一读。

3. 借鉴 RED 方法论

RED 方法论，即 Request rate、Error rate、Duration，托生自 Google 的四个黄金指标，主要用来衡量微服务的健康度，RED 方法论的原文在这里。

4. 指标命名要有规范

Prometheus 的指标命名，其实是没有约束的，也没有单位的概念，但通常会有一些约定，要尽量遵守，比如：

_seconds _milliseconds 等作为时间指标的后缀
_total 作为 counter 类型指标的后缀
更多的约定可以参考 https://prometheus.io/docs/practices/naming/

5. 注意标签基数爆炸

在 Prometheus 生态里，一个时间线的唯一标识是一个 labelset，即多个标签的组合（指标名称其实也是一个特殊标签，标签 Key 是 __name__）。比如 disk_free{host="10.1.2.3", fstype="ext4", path="/data"} 唯一标识了一个时间线。其中 disk_free 是指标名称，实际底层处理的时候，会处理成：{__name__="disk_free", host="10.1.2.3", fstype="ext4", path="/data"}，所以说标签集合是唯一标识一个时间线的。如果任一标签变化，就会当成一个新的时间线。一些高基数的信息，就不适合作为标签，比如：

用户访问的来源 IP
用户的 ID
用户请求的 TraceID

6. 统计失败+总量而不要统计失败+成功量

考虑下面两个 counter 指标：

failures_total
successes_total

如果要计算失败率，可以这么写：

rate(failures_total[5m])
/
(rate(successes_total[5m]) + rate(failures_total[5m]))

写起来相对复杂一些，如果我们统计失败+总量：

failures_total
requests_total

失败率的计算就会变简单：

rate(failures_total[5m]) / rate(requests_total[5m])

7. 使用默认值提前初始化指标

假设有这么一个指标：ops_total{optype="<type>"}，显然，这是想统计不同类型的操作的次数，但是如果某个类型的操作一次都没有发生，那么这个指标就不会出现在 Prometheus 的时间序列里，但你可能在 Grafana 图表和相关告警规则中用到了这样的语句：sum(rate(ops_total{optype="create"}[5m]))，如果 create 一次都没有发生，那就没法工作了。一般我们建议，代码埋点的时候要做初始化，比如下面的 Go 语言例子，把已知的操作类型都初始化一下：

for _, val := range opLabelValues {
 // Note: No ".Inc()" at the end.
 ops.WithLabelValues(val)
}

当然，填充默认值的这种方式并非总能奏效。比如 http_requests_total{status="<status>"} 这样的指标，status=~"5.." 过滤器查不到数据时会破坏整个 promql，此时有个比较 tricky 的方法是使用 or 语法：

<expression> or up{job="myjob"} * 0

更多信息可参考这个文章。

8. 避免使用无法识别的额外信息标签

比如机器的指标，disk_usage_bytes，如果某个机器部署了服务A，你可能会想这么打标签：disk_usage_bytes{service="a"}，但是如果后面这个机器改变了用途，不再部署服务A，而是部署服务B，这个磁盘使用的指标就会变成 disk_usage_bytes{service="b"}，而这，由于标签变化，就会导致 Prometheus 会认为这是一个新的时间线，而不是原来的时间线，导致时间线数据不连续。

那怎么办？可以使用 group_left 附加额外标签的方式，具体可以参考这个文章。

关于告警

Rob Ewaschuk 有一篇广为流传的文章：My Philosophy on Alerting，推荐大家 Google 一下阅读一下。

9. 告警症状而非原因

原因类指标可以放到仪表盘上用于后续问题根因排查，症状类指标，通常反映的是上层用户的感受，啥是症状类指标？比如：

某个关键服务延迟高，或错误率高
某个磁盘即将在未来 4h 内写满

10. 注意 target 缺失告警

比如下面这个告警规则：

ALERT HighErrorRate
 IF rate(errors_total{job="myjob"}[5m]) > 10
 FOR 5m

看起来挺好的，但是如果你的 target down 掉了或者压根没有被 Prometheus 发现，上面的表达式查不到数据，自然就不会告警。建议，对于关键指标，要一并配置 up 和 absent：

ALERT MyJobInstanceDown
 IF up{job="myjob"} == 0
 FOR 5m

ALERT MyJobAbsent
 IF absent(up{job="myjob"})
 FOR 5m

11. 告警规则通常要配置持续时长

比如下面的告警规则，没有配置持续时长：

ALERT InstanceDown
 IF up == 0

如果有一次抓取失败，就会告警，但实际上可能是网络抖动，实际的 target 是健康的，所以建议配置持续时长：

ALERT InstanceDown
 IF up == 0
 FOR 5m

12. 注意保留关键标签

举例：

Don't:

ALERT HighErrorRate
 IF sum(rate(...)) > x

Do (at least):

ALERT HighErrorRate
 IF sum by(job) (rate(...)) > x

读者可以在即时查询里体验一下，sum 之后，如果不加 by 的逻辑，所有标签就都没了，告警事件发出来信息太少，所以一般建议把关键标签放到 by 后面分组统计。

关于查询

13. 查询表达式通常要过滤到 job 颗粒度

不同的 job 可能有相同的指标名字，为了避免冲突，尽量把 job 作为过滤条件：

Don't: rate(http_request_errors_total[5m])
Do: rate(http_request_errors_total{job="api"}[5m])

14. 注意 `rate()` 和 `sum()` 的顺序

对于 counter 类型的指标，如果服务重启，指标会被重置，从 0 开始重新上报，rate() 函数可以修正这种情况，比如：

Prometheus rate and sum

正常来讲，应该先求 rate()，再求 sum()，如果弄反了，就麻烦了，比如下面的例子：

Prometheus rate and sum

译者注：要想玩转 Prometheus，其实还是有门槛的，但是大部分公司首先会把人力投入到自己的赚钱业务上，监控或者可观测性系统，这种偏辅助类的基础设施，没有精力搞，巧了，我们创业就是提供可观测性平台和服务，如果您对我们放心，欢迎联系我们，我们会提供一流的服务。

结论

Prometheus 的难点不只在部署，而在长期使用中的指标设计、标签治理、PromQL 查询和告警策略。好的实践通常很朴素：指标要有命名规范，标签不能无限增长，告警要指向用户症状，规则要保留关键上下文，Counter 要先 rate() 再聚合。

这些经验看似是细节，实际会决定 Prometheus 是一套可维护的监控系统，还是一套查询很慢、告警很吵、排障时信息不足的数据仓库。

FAQ

Q1：Prometheus 为什么特别怕高基数标签？ A：在 Prometheus 里，labelset 唯一标识时间线。用户 ID、TraceID、来源 IP 这类值不断增长的标签，会让时间线数量快速膨胀，影响存储和查询性能。

Q2：为什么告警应该关注症状而不是原因？ A：症状通常更接近用户感知，比如关键服务错误率高或延迟高。原因类指标适合放到仪表盘里辅助根因排查，而不是让值班人被大量底层噪音打断。

Q3：rate() 和 sum() 为什么顺序重要？ A：Counter 重置时，rate() 可以处理从大值归零的情况。通常应先对每条时间线求 rate()，再做 sum() 聚合。

译者：秦晓辉，Open-Falcon、Nightingale、Categraf 等开源项目创始研发人员，极客时间专栏《运维监控系统实战笔记》作者，目前在创业，提供可观测性产品，微信 picobyte，欢迎加好友交流，加好友请备注公司。

Prometheus 14 点实践经验分享

核心要点摘要

14 点实践速览

埋点方面

1. 所有模块都要埋点

2. 借鉴 USE 方法论

3. 借鉴 RED 方法论

4. 指标命名要有规范

5. 注意标签基数爆炸

6. 统计失败+总量而不要统计失败+成功量

7. 使用默认值提前初始化指标

8. 避免使用无法识别的额外信息标签

关于告警

9. 告警症状而非原因

10. 注意 target 缺失告警

11. 告警规则通常要配置持续时长

12. 注意保留关键标签

关于查询

13. 查询表达式通常要过滤到 job 颗粒度

14. 注意 `rate()` 和 `sum()` 的顺序

结论

FAQ

继续看解决方案和产品对比

继续阅读

核心要点摘要

14 点实践速览

埋点方面

1. 所有模块都要埋点

2. 借鉴 USE 方法论

3. 借鉴 RED 方法论

4. 指标命名要有规范

5. 注意标签基数爆炸

6. 统计失败+总量而不要统计失败+成功量

7. 使用默认值提前初始化指标

8. 避免使用无法识别的额外信息标签

关于告警

9. 告警症状而非原因

10. 注意 target 缺失告警

11. 告警规则通常要配置持续时长

12. 注意保留关键标签

关于查询

13. 查询表达式通常要过滤到 job 颗粒度

14. 注意 rate() 和 sum() 的顺序

结论

FAQ

相关文章

继续看解决方案和产品对比

继续阅读

14. 注意 `rate()` 和 `sum()` 的顺序