可观察性：分布式系统的可追溯性

由柏拉图重新发布

关注： 0

您是否曾经等待过那个显示“已发货”的昂贵包裹，但您不知道它在哪里？五天前跟踪历史停止更新，你几乎绝望了。但是等一下，11 天后，它就在您家门口。您希望可追溯性可以更好，以减轻您所有焦急的等待。这就是“可观察性”发挥作用的地方。

在技术领域，您希望避免这种情况发生在您的软件或数据系统上。因此，您采用监控工具，收集系统的日志和指标，并通知您它们的内部状态。当您希望系统通知您错误是什么、发生的地点和时间，但它不会告诉您如何解决错误时，监控最有效。

十多年前，监控工具缺乏对底层系统问题的背景和远见，团队将仅限于调试日常操作错误。今天，我们工作和生活在一个由微服务和数据管道; 即使使用多种监控工具也无法帮助您回答诸如“为什么我的应用程序总是很慢？”之类的业务问题。或者“问题发生在什么阶段，它在堆栈中有多深？” 或“我怎样才能改善环境的整体性能？” 有必要主动做出这些决定并全面了解您的系统、应用程序和数据。

本篇博客文章由 Etsy 发表于十年前，它在第二段中陈述了事实：

“应用程序指标通常是三者中最难但也是最重要的。它们非常适合您的业务，并且会随着您的应用程序的变化而变化（Etsy 变化很大）。”

那么，我们如何衡量一切？我们从可观察性开始。

什么是可观察性？

“可观察性”一词是创造由 Rudolf Emil Kálmán 于 1960 年在他的工程论文中描述数学控制系统。他将其定义为衡量一个系统的内部状态可以从其外部输出的知识中推断出来的程度。但这听起来不像监控吗？基本上，是的，它是监控。

如今，可观察性已成为一个热门话题。根据多项市场调查，它是一个价值数十亿美元的平台。许多组织已经采用了这个概念并将其用作分布式系统和管道的端到端可见性的框架。但是，可观察性与监视相混淆。现在，我可以说监控是可观察性的一个子集，可观察性是一个大的总称。

可观察性允许通过收集和聚合跟踪、日志和指标进行分布式跟踪。让我们看看这些推断是什么：

痕迹： 当系统收到请求时，跟踪会告诉您该请求在整个生命周期中如何从源流向目标。跟踪由“跨度”表示。跟踪是跨度树，跨度是跟踪中的单个操作。它们帮助您定位系统中的错误、延迟或瓶颈。
日志： 这些是机器生成的带有时间戳的事件，告诉您系统中发生的操作或更改。日志通常用于查询系统中的这些错误或更改。
指标： 这些提供了有关 CPU、内存、磁盘使用情况以及系统在一段时间内的性能的定量见解。

这些属性增强了具有可追溯性的监控框架。 Traceability 为您提供了跟踪调用系统的请求的镜头，从一个组件遍历到另一个组件需要多长时间，它调用了哪些其他服务，它是否抛出任何错误，它产生了什么日志，它处于什么状态是在什么时候开始和结束，它在你的系统中停留的时间线是什么等等。当你收集、汇总和分析这些痕迹时，你能够做出有价值的明智决策，比如电子商务网站上的客户时间线，他们搜索产品需要多长时间，他们查看产品需要多长时间，HTML 页面是否加载了图像或嵌入式视频等完整详细信息，系统需要多长时间来验证和处理付款等。

我们在分布式环境中通过可观察性实现了什么？

当组织开始从他们的集中式单体架构转向分布式和分散式微服务架构时，分布式系统的演变就开始了。这项工作仍在进行中，许多组织正在接受系统和应用程序的微服务特性。而这一切都可以归因于大数据和缩放。管理分布式环境需要持续学习、额外的劳动力、框架和政策的变化、IT 管理等。这确实是一个很大的变化。

早些时候，在有限的单一环境中，硬件、软件、数据和数据库都位于同一个屋檐下。随着 2000 年代大数据的出现，监控和扩展系统开始成为一个巨大的问题。通常，组织采用不同的监控工具来满足其各种应用程序的需求。因此，它很快成为一种运营开销，弹性、可见性和可靠性都很差。

所有这些问题都导致了可观察性的采用。如今，存在多种可观察性工具用于安全、网络、应用程序和数据管道，以便在复杂环境中进行分布式跟踪。它们与它们的表亲、监控工具共存，并利用从它们的表亲那里收集信息并从其自身的跟踪数据中聚合额外信息。

所有这些系统中都有很多移动组件，捕获它们的痕迹可以说明 5W 的故事：何时、何地、为什么、什么以及如何。例如，您在下午 1:43 访问 DATAVERSITY 的网站阅读一些博客文章。当您点击 dataversity.net 时，HTTP 请求会记录到系统中。您开始搜索博客文章并转到数据治理帖子，您花了 17 分钟阅读该帖子，然后在下午 2:00 关闭选项卡