告警
监控和管理来自 Alertmanager 集成的告警。
概述
Umoo 与 Prometheus Alertmanager 集成以展示基础设施和设备告警。告警区域有三个视图:
| 视图 | 用途 |
|---|---|
| 活跃告警 | 当前正在触发的、需要关注的告警 |
| 告警规则 | Alertmanager 规则组和单个规则定义 |
| 告警历史 | 已解决和已过期的告警记录 |
活跃告警
导航到告警 → 活跃告警查看所有当前正在触发的告警。
每行告警显示:
- 资源 — 受影响的资源名称或标签
- 级别 — 严重程度(紧急、警告、信息)
- 持续时间 — 告警已触发多长时间
- 告警条件 — 告警触发原因摘要
- 起止时间 — 告警开始时间(如果仍活跃则结束时间为空)
- 次数 — 发生次数
过滤活跃告警
按以下条件过滤:
- 搜索 — 跨所有告警标签的全文搜索
- 严重程度 — 紧急 / 警告 / 信息 / 全部
- 状态 — 触发中 / 已解决 / 全部
查看发生次数
点击告警行打开发生次数对话框,列出该告警每次触发的时间戳和状态。
Alertmanager 不可用
如果 Alertmanager 无法连接,会显示警告横幅:"Alertmanager 不可用。告警数据可能过时。" 检查 Alertmanager 服务和 alertmanager.url 服务器配置。
告警规则
导航到告警 → 告警(管理标签页)查看和管理 Alertmanager 规则组。
每个规则组显示:
- 组名称
- 数据源
- 规则数量
点击规则组查看各告警规则的 PromQL 表达式、持续时间、严重程度标签和注释。
创建告警规则
- 点击创建规则。
- 填写:
- 规则名称 — 唯一标识符
- PromQL 表达式 — 触发告警的指标查询
- 持续时间 — 条件为真多长时间后触发告警
- 严重程度 —
critical、warning或info - 摘要 / 描述 — 人类可读的注释
- 点击保存。
规则会写入 Alertmanager,并在下一个评估周期(通常 1 分钟)内生效。
告警历史
导航到告警 → 历史浏览已解决和已过期的告警。
按以下条件过滤:
- 搜索 — 告警名称或标签值
- 严重程度 — 按级别过滤
- 时间范围 — 起止日期选择器
告警历史根据 Alertmanager 实例中配置的保留策略保留。
Webhook 集成
Umoo 暴露了 Alertmanager webhook 端点:
POST /api/v1/alerts/webhook此端点无需认证,用于接收来自 Alertmanager 的告警通知。配置你的 Alertmanager 接收器向此 URL 发送 POST 请求。
通过 webhook 接收的告警存储在配置的默认租户的 Umoo 事件日志中。
配置
| 服务器配置键 | 描述 |
|---|---|
alertmanager.url | Alertmanager 基础 URL(例如 http://alertmanager:9093) |
prometheus.url | 用于规则评估的 Prometheus 基础 URL |
alerts.default_tenant_id | webhook 接收告警的租户 UUID |