监控与告警
Novaix 内置了资源监控和告警功能,帮助您实时掌握节点和实例的运行状态。
监控数据采集
Novaix 会定期采集节点和实例的资源使用数据,包括:
- CPU 使用率
- 内存使用量
- 磁盘使用量
- 网络流量(入站/出站)
节点层面的监控需要节点服务器安装 Node Exporter,Novaix 通过 Node Exporter 的接口采集数据。实例层面的监控数据直接从运行环境的 API 获取,无需额外安装。
采集配置
在 config.yaml 中配置采集参数:
yaml
collector:
interval: 60 # 采集间隔(秒),默认 60
retention: 720 # 数据保留时间(小时),默认 720(30 天)
timeout: 10 # 单次采集超时(秒),默认 10仪表盘
管理面板的仪表盘页面提供了全局概览,包括:
- 节点总数和在线状态
- 实例总数和运行状态
- 用户总数
- 订单和收入统计
- 资源使用趋势图表
告警
Novaix 支持阈值告警,当监控指标超过设定的阈值时会触发告警。目前支持以下告警类型:
| 类型 | 说明 |
|---|---|
| 节点离线 | 节点连接中断 |
| CPU 超阈值 | 节点 CPU 使用率超过设定百分比 |
| 内存超阈值 | 节点内存使用率超过设定百分比 |
| 磁盘超阈值 | 节点磁盘使用率超过设定百分比 |
告警功能默认关闭,需要在管理面板的「系统设置」→「告警设置」中启用并配置。可配置的项目包括:
| 设置项 | 默认值 | 说明 |
|---|---|---|
| 启用告警 | 关闭 | 是否开启告警功能 |
| CPU 阈值 | 90% | CPU 使用率超过此值时触发告警 |
| 内存阈值 | 90% | 内存使用率超过此值时触发告警 |
| 磁盘阈值 | 90% | 磁盘使用率超过此值时触发告警 |
| 冷却时间 | 60 分钟 | 同一告警触发后多久内不会重复通知 |
| 告警邮箱 | - | 接收告警通知的邮箱地址 |
告警触发后会通过邮件通知管理员(需要先配置 SMTP 邮件服务),同时记录到告警日志中。
TIP
冷却时间用于防止告警轰炸。例如设置为 60 分钟,则某个节点的 CPU 告警触发后,60 分钟内即使 CPU 持续超阈值也不会重复发送邮件。
