Skip to content
Novaix 目前处于早期开发阶段,功能尚未稳定,可能存在严重的 Bug。请勿用于生产环境。

监控与告警

Novaix 内置了资源监控和告警功能,帮助您实时掌握节点和实例的运行状态。

监控数据采集

Novaix 会定期采集节点和实例的资源使用数据,包括:

  • CPU 使用率
  • 内存使用量
  • 磁盘使用量
  • 网络流量(入站/出站)

节点层面的监控需要节点服务器安装 Node Exporter,Novaix 通过 Node Exporter 的接口采集数据。实例层面的监控数据直接从运行环境的 API 获取,无需额外安装。

采集配置

config.yaml 中配置采集参数:

yaml
collector:
  interval: 60    # 采集间隔(秒),默认 60
  retention: 720  # 数据保留时间(小时),默认 720(30 天)
  timeout: 10     # 单次采集超时(秒),默认 10

仪表盘

管理面板的仪表盘页面提供了全局概览,包括:

  • 节点总数和在线状态
  • 实例总数和运行状态
  • 用户总数
  • 订单和收入统计
  • 资源使用趋势图表

告警

Novaix 支持阈值告警,当监控指标超过设定的阈值时会触发告警。目前支持以下告警类型:

类型说明
节点离线节点连接中断
CPU 超阈值节点 CPU 使用率超过设定百分比
内存超阈值节点内存使用率超过设定百分比
磁盘超阈值节点磁盘使用率超过设定百分比

告警功能默认关闭,需要在管理面板的「系统设置」→「告警设置」中启用并配置。可配置的项目包括:

设置项默认值说明
启用告警关闭是否开启告警功能
CPU 阈值90%CPU 使用率超过此值时触发告警
内存阈值90%内存使用率超过此值时触发告警
磁盘阈值90%磁盘使用率超过此值时触发告警
冷却时间60 分钟同一告警触发后多久内不会重复通知
告警邮箱-接收告警通知的邮箱地址

告警触发后会通过邮件通知管理员(需要先配置 SMTP 邮件服务),同时记录到告警日志中。

TIP

冷却时间用于防止告警轰炸。例如设置为 60 分钟,则某个节点的 CPU 告警触发后,60 分钟内即使 CPU 持续超阈值也不会重复发送邮件。