在 Cloud Monitoring 中监控 Pub/Sub

您可以使用 Google Cloud 控制台或 Cloud Monitoring API 来监控 Pub/Sub。

本文档介绍了如何在 Google Cloud 控制台中使用 Monitoring 监控 Pub/Sub 使用情况。

  • 除了 Pub/Sub 指标之外,如果您还想查看来自其他 Google Cloud 资源的指标,请使用 Monitoring。

  • 否则,您可以使用 Pub/Sub 中提供的监控信息中心。请参阅监控主题监控订阅

如需了解在自动伸缩中使用指标的最佳实践,请参阅将 Pub/Sub 指标用作伸缩信号的最佳实践

准备工作

在使用 Monitoring 之前,请确保您已准备好以下内容:

  • Cloud Billing 帐号

  • 启用了结算功能的 Pub/Sub 项目

确保满足以上两个条件的方法之一是完成快速入门:使用 Cloud 控制台的学习。

查看现有信息中心

借助信息中心,您可以在同一上下文中查看和分析来自不同来源的数据。Google Cloud 提供预定义和自定义信息中心。例如,您可以查看预定义的 Pub/Sub 信息中心,或创建自定义信息中心,以显示与 Pub/Sub 相关的指标数据、提醒政策和日志条目。

如需使用 Cloud Monitoring 监控 Pub/Sub 项目,请执行以下步骤:

  1. 在 Google Cloud 控制台中,转到 Monitoring 页面。

    进入 Monitoring

  2. 选择您的项目名称(如果尚未在页面顶部选择该名称)。

  3. 点击导航菜单中的信息中心

  4. 信息中心概览页面中,新建一个信息中心,或选择现有的 Pub/Sub 信息中心。

    如需搜索现有的 Pub/Sub 信息中心,请在所有信息中心的过滤条件中选择名称属性,然后输入 Pub/Sub

如需详细了解如何创建、修改和管理自定义信息中心,请参阅管理自定义信息中心

查看单个 Pub/Sub 指标

如需使用 Google Cloud 控制台查看单个 Pub/Sub 指标,请执行以下步骤:

  1. 在 Google Cloud 控制台中,转到 Monitoring 页面。

    进入 Monitoring

  2. 在导航窗格中,选择 Metrics Explorer

  3. 配置部分中,点击选择指标

  4. 在过滤条件中,输入 Pub/Sub

  5. 活跃资源中,选择 Pub/Sub 订阅Pub/Sub 主题

  6. 深入了解特定指标,然后点击应用

    特定指标的页面将会打开。

您可以参阅 Cloud Monitoring 文档,详细了解监控信息中心。

查看 Pub/Sub 指标和资源类型

监控配额用量

对于给定项目,您可以使用 IAM 和管理的“配额”信息中心查看当前配额和用量。

您可以使用以下指标查看历史配额用量:

这些指标使用 consumer_quota 受监控的资源类型。如需了解更多与配额相关的指标,请参阅指标列表

例如,以下 Monitoring 查询语言 查询会创建一个图表,其中包含每个区域中正在使用的发布者配额的比例:

fetch consumer_quota
| filter resource.service == 'pubsub.googleapis.com'
| { metric serviceruntime.googleapis.com/quota/rate/net_usage
    | filter metric.quota_metric == 'pubsub.googleapis.com/regionalpublisher'
    | align delta_gauge(1m)
    | group_by [metric.quota_metric, resource.location],
        sum(value.net_usage)
  ; metric serviceruntime.googleapis.com/quota/limit
    | filter metric.quota_metric == 'pubsub.googleapis.com/regionalpublisher'
    | group_by [metric.quota_metric, resource.location],
        sliding(1m), max(val()) }
| ratio

如果您预计用量会超出默认配额限制,请为所有相关配额创建提醒政策。当您的用量达到限额的某一部分时,就会触发这些提醒。例如,当任何 Pub/Sub 配额超过 80% 时,以下 Monitoring Query Language 查询就会触发提醒政策:

fetch consumer_quota
| filter resource.service == 'pubsub.googleapis.com'
| { metric serviceruntime.googleapis.com/quota/rate/net_usage
    | align delta_gauge(1m)
    | group_by [metric.quota_metric, resource.location],
        sum(value.net_usage)
  ; metric serviceruntime.googleapis.com/quota/limit
    | group_by [metric.quota_metric, resource.location],
        sliding(1m), max(val()) }
| ratio
| every 1m
| condition gt(val(), 0.8 '1')

如需对配额指标进行更多自定义监控和提醒,请参阅使用配额指标

如需详细了解配额,请参阅配额和限制

保持健康的订阅

为了保持订阅状况良好,您可以使用 Pub/Sub 提供的指标监控多项订阅属性。例如,您可以监控未确认的消息量、消息确认时限的到期等。您还可以检查订阅的运行状况是否良好,可以实现较低的消息传送延迟时间

请参阅接下来的部分,详细了解具体指标。

监控消息积压

为了确保订阅者能够跟上消息流,请创建一个信息中心。信息中心可以显示所有订阅的以下积压指标(按资源汇总):

创建提醒政策,以便在这些值超出系统上下文的可接受范围时触发。例如,未确认消息的绝对数量不一定有意义。对于每秒传送一百万条消息的订阅,100 万条消息积压或许是可以接受的,但对于每秒一条消息的订阅是不可接受的。

常见的积压问题

表现 问题 解决方案
oldest_unacked_message_agenum_undelivered_messages 同时增长。 订阅者未跟上消息量
  • 添加更多订阅者线程或进程。
  • 添加更多订阅者机器或容器。
  • 查找代码中的 bug 迹象,这些 bug 会导致代码无法成功确认消息或及时处理消息。 请参阅监控确认时限到期时间
如果积压输入量很稳定,数量较少,但 oldest_unacked_message_age 数量稳步增长,则可能会有几条消息无法处理。 消息卡住了
  • 检查应用日志,了解某些消息是否会导致代码崩溃。违规消息不太可能(但有可能)卡在 Pub/Sub(而不是客户端)中。当您确信自己的代码已成功处理每条消息后,可以提交支持案例。
  • 如果某些消息导致代码崩溃,请考虑将这些消息转发到死信主题
oldest_unacked_message_age 超出了订阅的 消息保留时长 数据永久丢失
  • 设置在消息保留时长到期之前触发的提醒。

监控递送延迟时间健康状况

在 Pub/Sub 中,传送延迟时间是指发布的消息传送至订阅者所需的时间。如果您的消息积压增加,您可以使用传送延迟时间运行状况得分 (subscription/delivery_latency_health_score) 来检查哪些因素导致延迟时间增加。

此指标用于衡量单个订阅在 10 分钟的滚动时间段内的健康状况。通过该指标,您可以深入了解以下条件,这些条件是订阅实现一致的低延迟所必需的:

  • 可忽略的跳转请求。

  • 可忽略的负面确认消息(短缺)消息。

  • 已过期的消息确认截止期限可忽略不计。

  • 一致的确认延迟时间少于 30 秒。

  • 持续的低利用率,意味着订阅始终有足够的容量来处理新消息。

传送延迟时间健康得分指标针对每个指定条件报告一个得分(0 或 1)。1 分表示健康状况良好,0 分表示健康状况不佳。

  • 还原请求:如果订阅在过去 10 分钟内有任何还原请求,则得分将设置为 0。还原订阅可能会导致旧消息在首次发布很长时间后重放,从而导致传送延迟时间增加。

  • 否定确认(nack)消息:如果订阅在过去 10 分钟内有任何否定确认 (nack) 请求,则得分设置为 0。否定确认会导致消息再次传送,传送延迟时间增加。

  • 已过期的确认时限:如果订阅在过去 10 分钟内有任何已过期的确认时限,则得分设置为 0。确认截止期限到期的消息将被重新提交,传送延迟时间会增加。

  • 确认延迟时间:如果过去 10 分钟内所有确认延迟时间的第 99.9 百分位超过 30 秒,则得分设置为 0。确认延迟时间较长表示订阅方客户端处理消息的时间异常长。此得分可能意味着订阅者客户端存在 bug 或某些资源限制。

  • 低利用率:每种订阅类型的利用率计算方式有所不同。

    • StreamingPull:如果未打开足够的流,则得分设置为 0。请开放更多信息流,确保您有足够的容量来接收新消息。

    • 推送:如果您的推送端点未完成消息过多,则得分设置为 0。为推送端点添加更多容量,以便有足够的容量接收新消息。

    • 拉取:如果没有足够的未完成拉取请求,则得分设置为 0。开放更多并发拉取请求,以确保您已准备好接收新消息。

如需查看该指标,请在 Metrics Explorer 中,为 Pub/Sub 订阅资源类型选择传送延迟时间健康得分指标。添加过滤条件,以便一次仅选择一个订阅。选择堆积面积图并指向特定时间,以查看相应时间点的订阅标准得分。

以下是使用堆叠面积图绘制一小时内指标的屏幕截图。到凌晨 4:15 时,综合健康得分最高为 5 分,每个条件的得分为 1 分。之后,总分在凌晨 4:20 降至 4,此时利用率得分降至 0。

传送延迟时间指标的屏幕截图

Monitoring Query Language 为 Cloud Monitoring 时间序列数据提供基于文本的富有表现力的界面。以下 MQL 查询会创建一个图表,用于衡量订阅的传送延迟时间健康状况得分。

fetch pubsub_subscription
| metric 'pubsub.googleapis.com/subscription/delivery_latency_health_score'
| filter (resource.subscription_id == '$SUBSCRIPTION')
| group_by 1m,
   [value_delivery_latency_health_score_sum:
     sum(if(value.delivery_latency_health_score, 1, 0))]
| every 1m

监控确认时限到期

为了缩短消息传送延迟时间,Pub/Sub 为订阅者客户端提供了有限的时间来确认(确认)给定消息。此时间段称为确认时限。如果订阅者确认消息的时间过长,系统会重新提交消息,从而导致订阅者看到重复的消息。导致重新提交的原因可能有很多:

  • 订阅者预配不足(您需要更多线程或机器)。

  • 每条消息的处理时间都比消息确认时限更长。Cloud 客户端库通常会延长个别消息的期限(最长为可配置的上限)。不过,客户端库延长消息时限也有上限。

  • 某些消息一直导致客户端崩溃。

您可以衡量订阅者错过确认时限的比率。具体指标取决于订阅类型:

过高的确认时限到期率可能会导致系统成本效率低下。您需要为每次重新传送以及重复尝试处理每条消息付费。相反,较低的到期率(例如 0.1–1%)可能表明运行状况良好。

监控消息吞吐量

拉取订阅和 StreamingPull 订阅者可能会在每个拉取响应中接收批量消息;推送订阅在每个推送请求中会收到一条消息。您可以使用这些指标监控订阅者正在处理的批量消息吞吐量:

您可以使用按 delivery_type 标签过滤的指标 subscription/sent_message_count 来监控订阅者处理的单条消息吞吐量或未批量处理的消息吞吐量。

监控推送订阅

对于推送订阅,请监控以下指标:

  • subscription/push_request_count

    response_codesubcription_id 对指标进行分组。由于 Pub/Sub 推送订阅将响应代码用作隐式消息确认,因此监控推送请求响应代码非常重要。由于推送订阅在遇到超时情况或错误时会以指数方式退避,因此积压输入量可能会根据端点响应情况而快速增长。

    请考虑针对高错误率设置提醒,因为这些错误率会导致传送速度缓慢且积压输入量不断增加。您可以创建按响应类过滤的指标。但是,推送请求计数可能更适合作为调查不断增加的积压输入量和存在时间的工具。

  • subscription/num_outstanding_messages

    Pub/Sub 通常会限制未完成消息的数量。在大多数情况下,以不超过 1000 条未完成消息为目标。在吞吐量达到每秒 10,000 条消息的速率水平后,服务会调整未完成消息数量的限制。此限制是以 1,000 为增量实现的。超出最大值没有具体保证,因此最好将未处理的消息数设为 1,000。

  • subscription/push_request_latencies

    此指标有助于您了解推送端点的响应延迟时间分布。 由于未完成消息的数量存在限制,因此端点延迟时间会影响订阅吞吐量。如果每条消息需要 100 毫秒来处理,则吞吐量上限可能是每秒 10 条消息。

如需获得更高的未完成消息限额,推送订阅方必须确认所收到的消息中超过 99% 的消息。

您可以使用监控查询语言计算订阅者确认的消息所占的比例。以下 MQL 查询会创建一个图表,其中包含订阅者在订阅时确认的消息所占的比例:

fetch pubsub_subscription
| metric 'pubsub.googleapis.com/subscription/push_request_count'
| filter
    (resource.subscription_id == '$SUBSCRIPTION')
    | filter_ratio_by [], metric.response_class == 'ack'
    | every 1m

使用过滤条件监控订阅

如果您对订阅配置过滤条件,Pub/Sub 会自动确认与过滤条件不匹配的消息。您可以监控此自动确认。

积压指标仅包含与过滤条件匹配的消息。

如需监控与过滤条件不匹配的自动确认消息的比率,请使用 subscription/ack_message_count 指标,并将 delivery_type 标签设置为 filter

如需监控与过滤条件不匹配的自动确认消息的吞吐量和费用,请使用 subscription/byte_cost 指标,并将 operation_type 标签设置为 filter_drop。如需详细了解这些消息的费用,请参阅 Pub/Sub 价格页面

监控转发的无法递送的邮件

如需监控 Pub/Sub 转发到死信主题的无法传送消息,请使用 subscription/dead_letter_message_count 指标。此指标显示 Pub/Sub 从订阅转发的无法递送消息数量。

如需验证 Pub/Sub 是否转发无法递送的消息,您可以将 subscription/dead_letter_message_count 指标与 topic/send_request_count 指标进行比较。比较 Pub/Sub 将这些消息转发到的死信主题。

您还可以将订阅附加到死信主题,然后使用以下指标监控此订阅上转发的无法传送的消息:

维持运营状况良好的发布商

发布者的主要目标是快速保留消息数据。您可以使用 topic/send_request_count(按 response_code 分组)监控此性能。借助此指标,您可以了解 Pub/Sub 运行状况是否良好以及是否正在接受请求。

可重试错误的后台发生率(低于 1%)无需担心,因为大多数 Cloud 客户端库都会重试消息失败的情况。调查大于 1% 的错误率。由于不可重试的代码是由应用(而不是客户端库)处理的,因此您应检查响应代码。如果发布者应用没有一种较好的途径表明运行状况不佳,请考虑针对 topic/send_request_count 指标设置提醒。

在发布客户端中跟踪失败的发布请求同样重要。虽然客户端库通常会重试失败的请求,但并不保证一定会发布。如需了解在使用 Cloud 客户端库时检测永久性发布失败的方法,请参阅发布消息。您的发布者应用必须至少记录永久性发布错误。如果您将这些错误记录到 Cloud Logging 中,可以使用提醒政策设置基于日志的指标

监控消息吞吐量

发布者可以批量发送消息。您可以通过以下指标监控发布者发送的消息吞吐量:

  • topic/send_request_count:发布者发送的批量消息量。

  • topic/message_sizes计数:发布者发送的单条(未批量处理)消息的数量。

    您可以通过将计数聚合器应用于此指标或使用 Monitoring Query Language 来计算正在发送的消息数。以下 MQL 查询会创建一个图表,显示针对某个主题发送的各条消息的比率:

    fetch pubsub_topic
    | metric 'pubsub.googleapis.com/topic/message_sizes'
    | filter
        (resource.topic_id == '$TOPIC')
    | align delta(1m)
    | every 1m
    | group_by [], [row_count: row_count()]
    

后续步骤

  • 如需针对特定指标创建提醒,请参阅管理基于指标的提醒政策

  • 如需详细了解如何使用 MQL 构建监控图表,请参阅使用查询编辑器

  • 如需详细了解 Monitoring API 的 API 资源(例如指标、受监控的资源、受监控的资源组和提醒政策),请参阅 API 资源