日志管理最佳实践：一分钟精简版

logz 2025-11-08 22:29:24

采用 JSON 等统一的日志格式，并使用结构化日志库，如 Bunyan、Winston 或 Serilog。

统一的结构能确保日志可被机器解析、易于建立索引且格式可预测。这种一致性不仅简化了跨服务的日志关联工作，还提升了日志处理流程的可靠性。最终实现的效果是——下游负责解析或查询数据的人员，不会遇到意外情况。

错误信息应始终记录在日志中。

警告信息通常较为重要，但可能只需短期留存。可通过设置严重级别（如错误、警告、信息、调试等）对日志的重要性进行分类。

调试日志虽有价值，但为有效控制成本，最好将其存储在“温存储”或“冷存储”层级中。

清晰定义的日志级别，能让日志过滤、告警和留存策略切实发挥作用。这样一来，既能避免仪表盘充斥冗余信息，又能控制存储成本。

在每一条日志中包含元数据，例如集群、Pod 标识符（ID）、用户标识符（ID），理想情况下还应包含事务标识符（ID）。这一做法能实现日志与指标、追踪数据的关联。随后，你可以跨微服务追踪单个事务，并将日志与指标关联起来，从而更快、更可靠地排查问题。

译者注：日志记录要规划层级，用一些字段把相关的逻辑串联在一起，对于后面排查问题极有帮助，和 Tracing 的 Span 逻辑类似。

避免在日志中记录密码、令牌、个人标识信息、API 密钥或个人数据等敏感内容。在这些信息进入系统之前，务必对其进行清理或脱敏处理，以确保合规性和安全性。

日志通常会存储在共享系统中。若不进行脱敏处理，可能会导致机密信息泄露、引发合规风险，甚至可能为安全漏洞的利用提供便利。这也正是安全日志管理最佳实践至关重要的原因。

不妨思考一下：是否真的需要将每一条“200 OK”（请求成功）的记录都以原始日志数据的形式存储？通常情况下，这些记录可以转换为指标，而非逐条存储。

原始日志内容繁杂，且留存成本较高。将其转换为指标，既能保持对系统运行状态的可见性，又能提升效率，减少不必要的数据留存——从而降低成本并减少冗余信息。

原文链接：https://logz.io/blog/log-management-best-practices/