怎么记日志才算专业,SRE、DEV 都应该了解的实践指南
日志记录不是随意的流水账,而是有目的的证据收集。每一条日志都应为未来的你和你的团队提供清晰、有用的信息,帮助你们理解系统的运行状态、排查问题并优化性能。通过结构化日志、添加上下文信息、明确日志级别,并善用现代工具进行过滤和控制,你可以打造一个高效、可靠的日志记录体系 —— 让日志真正成为可观测性实践中的宝贵资产,而非无用信息的堆积。
汇总 Flashcat 博客中与 日志监控 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
日志记录不是随意的流水账,而是有目的的证据收集。每一条日志都应为未来的你和你的团队提供清晰、有用的信息,帮助你们理解系统的运行状态、排查问题并优化性能。通过结构化日志、添加上下文信息、明确日志级别,并善用现代工具进行过滤和控制,你可以打造一个高效、可靠的日志记录体系 —— 让日志真正成为可观测性实践中的宝贵资产,而非无用信息的堆积。
本文总结了日志管理的五大最佳实践,涵盖统一日志格式、合理日志级别、关联上下文信息、安全日志管理以及将日志转换为指标等关键方面,帮助提升日志处理效率与安全性。
日志监控时,想要在告警消息中带上日志原文,应该如何操作?Flashduty 提供了一个关联查询的功能,可以在告警事件中包含日志原文。
使用夜莺做日志监控,怎么才能在告警事件中包含日志原文
作为运维工程师,很多日志文件是需要监控的,研发不会主动要求,他们会默认你已经采集了。主要是一些系统日志和 Web 服务器的日志,本文会罗列出来帮你查漏补缺。
ElasticSearch 支持多种查询语法,DSL、SQL、EQL 等,其中 DSL 中的 query_string 极为灵活,可以看做一种小型查询语法,本文介绍一下 query_string 的几个简单样例,帮助你快速入门
使用 Fluentbit 解析多行日志的最佳实践。本文是 Fluentbit 入门系列教程的第三篇。Fluentbit 是一款轻量的日志采集器,通常用于容器、嵌入式环境。
在本博客中,我们会学习如何使用正则表达式在 Fluent bit 中解析日志消息。正则表达式是一种强大的工具,可以帮助用户从非结构化或半结构化日志数据中提取有用的信息。我们还了解了如何定义自定义解析器,以便 Fluent Bit 可以正确解析日志消息。这是学习 Fluent Bit 的重要一步,因为它有助于理解日志数据并将其转化为有价值的见解。
通过一个可运行示例讲解 Fluent Bit 的 tail 插件,说明 Read_from_head、DB 偏移记录和标准配置模式,帮助你稳定采集日志。
如何使用自定义 Fluent Bit 配置解析多行日志。通过配置多行解析器,您可以将多行日志消息合并到单个日志记录中,从而使日志更易于理解并节省时间。这种方法可以帮助您更好地管理和处理日志信息,提高运维效率。
Fluent Bit 和 Fluentd 都是流行的日志收集和处理工具,它们有一些相似之处,但也存在一些差异。本文介绍两个软件的详细对比。
Fluent Bit 被广泛认为是 Fluentd 的小弟,但它同样强大、灵活,在构建时不但考虑了物理机、虚拟机环境,也考虑到了云原生环境。本文讲解使用 Fluent Bit 收集 Kubernetes 集群日志的配置方法。
在本指南中,我们将详细了解Grafana Loki架构及其组件。
这篇博文将向您介绍 Fluent Bit 3.0 以及在可观察性管道(Pipeline)中使用它的一些最佳实践。最近发布的 Fluent Bit 3.0 为 Fluent Bit 最佳实践提供了一些新的机会。让我们看一下 Fluent Bit 以及 v3 的新增功能。
讲解在 Ubuntu 上部署 Fluent Bit 的步骤,以及如何配置 Fluent Bit 将日志转发到 OpenObserve。Fluent Bit 是一个开源的多平台日志转发器,它允许您从不同来源收集数据/日志,统一并将它们发送到多个目的地。托管在 CNCF 基金会下,值得我们去了解。
如果你在意生产环境的稳定性,希望自己的服务出问题时及时发现,大概率就有日志监控告警的需求,比如发现日志中有 Error 或 Exception 关键字就告警,比如通过日志统计某个服务的 95 分位延迟数据,延迟过高就告警,比如通过日志统计某个服务的 status code,出现多个 5xx 就告警,等等。日志可能存储在 ElasticSearch、Loki、ClickHouse 等系统中,告警系统的核心逻辑也比较清晰,就是根据用户配置的查询语句,周期性查询这些存储,并对查询结果做阈值判定,如果达到阈值就触发告警。比如统计 5 分钟内出现的 Error 数量,如果大于 10 就告警。
越来越多的互联网公司开始尝试 ClickHouse 存储日志,比如映客、快手、携程、唯品会、石墨文档,但是 ClickHouse 存储日志缺少对应的可视化方案,石墨文档开源了 ClickVisual 用于解决这个问题。
ClickHouse 作为日志存储的平台,已经被很多大厂验证,国内的比如石墨、B站、唯品会都有相关实践经验分享。本文介绍 Cloudflare 的实践经验。
如果企业提供 IT 在线服务,那么可观测性能力是必不可少的。“可观测性” 这个词近来也越发火爆,不懂 “可观测性” 都不好意思出门了。但是可观测性能力的构建却着实不易,每个企业都会用到一堆技术栈来组装建设。比如数据收集,可能来自某个 exporter,可能来自 telegraf,可能来自 OTEL,可能来自某个日志文件,可能来自 statsd,收集到数据之后还需要做各种过滤、转换、聚合、采样等操作,烦不胜烦,今天我们就给大家介绍一款开源的数据收集+路由器工具:Vector,解除你的上述烦恼。
本文讲解如何使用 categraf 的 mtail 插件从应用日志中提取 metrics 指标,这种方式对于无法埋点的应用监控非常有帮助,完全无侵入性;对于系统日志中的关键字监控也非常好用