Skip to content

告警

监控和管理来自 Alertmanager 集成的告警。

概述

Umoo 与 Prometheus Alertmanager 集成以展示基础设施和设备告警。告警区域有三个视图:

视图用途
活跃告警当前正在触发的、需要关注的告警
告警规则Alertmanager 规则组和单个规则定义
告警历史已解决和已过期的告警记录

活跃告警

导航到告警 → 活跃告警查看所有当前正在触发的告警。

每行告警显示:

  • 资源 — 受影响的资源名称或标签
  • 级别 — 严重程度(紧急、警告、信息)
  • 持续时间 — 告警已触发多长时间
  • 告警条件 — 告警触发原因摘要
  • 起止时间 — 告警开始时间(如果仍活跃则结束时间为空)
  • 次数 — 发生次数

过滤活跃告警

按以下条件过滤:

  • 搜索 — 跨所有告警标签的全文搜索
  • 严重程度 — 紧急 / 警告 / 信息 / 全部
  • 状态 — 触发中 / 已解决 / 全部

查看发生次数

点击告警行打开发生次数对话框,列出该告警每次触发的时间戳和状态。

Alertmanager 不可用

如果 Alertmanager 无法连接,会显示警告横幅:"Alertmanager 不可用。告警数据可能过时。" 检查 Alertmanager 服务和 alertmanager.url 服务器配置。

告警规则

导航到告警 → 告警(管理标签页)查看和管理 Alertmanager 规则组。

每个规则组显示:

  • 组名称
  • 数据源
  • 规则数量

点击规则组查看各告警规则的 PromQL 表达式、持续时间、严重程度标签和注释。

创建告警规则

  1. 点击创建规则
  2. 填写:
    • 规则名称 — 唯一标识符
    • PromQL 表达式 — 触发告警的指标查询
    • 持续时间 — 条件为真多长时间后触发告警
    • 严重程度criticalwarninginfo
    • 摘要 / 描述 — 人类可读的注释
  3. 点击保存

规则会写入 Alertmanager,并在下一个评估周期(通常 1 分钟)内生效。

告警历史

导航到告警 → 历史浏览已解决和已过期的告警。

按以下条件过滤:

  • 搜索 — 告警名称或标签值
  • 严重程度 — 按级别过滤
  • 时间范围 — 起止日期选择器

告警历史根据 Alertmanager 实例中配置的保留策略保留。

Webhook 集成

Umoo 暴露了 Alertmanager webhook 端点:

POST /api/v1/alerts/webhook

此端点无需认证,用于接收来自 Alertmanager 的告警通知。配置你的 Alertmanager 接收器向此 URL 发送 POST 请求。

通过 webhook 接收的告警存储在配置的默认租户的 Umoo 事件日志中。

配置

服务器配置键描述
alertmanager.urlAlertmanager 基础 URL(例如 http://alertmanager:9093
prometheus.url用于规则评估的 Prometheus 基础 URL
alerts.default_tenant_idwebhook 接收告警的租户 UUID

Umoo — IoT Device Management Platform