在 MC 中监控数据库消息和警报

管理控制台会定期检查系统运行状况和性能。当发生重要事件或系统性能波动超出用户或系统定义的限制时,管理控制台会生成消息,向您发出有关系统状态的警报。在消息中心查看和管理警报。

消息警报通知

管理控制台可通过多种方法传达警报通知,以确保您立即发现任何可能需要注意的数据库更改。您会收到电子邮件通知消息,并可使用以下组件查看通知:

  • 邮件信封图标:此图标位于任何数据库特定页面右上角的 MC 帮助 (MC Help) 图标旁边。选择此图标将显示消息中心 (Message Center) 快速视图,执行存档、阅读和删除消息操作。有关消息操作和警报的详细信息,请参阅消息中心 (Message Center)

  • 未读消息(本周)(Unread Messages (This Week)) 小组件:在数据库概述 (Overview) 选项卡上,此小组件位于“快速统计数据 (Quick Stats)”侧栏中。它显示未读的高优先级消息。选择小组件中的编号(包括 0),转至消息中心 (Message Center)

预配置的警报

管理控制台提供预配置的警报以提供系统监控功能,无需手动设置。每个警报均具有预配置的阈值,用于定义可接受的性能限制,当数据库超过该阈值时,MC 将发送消息通知。

默认情况下,预配置的警报处于非活动状态,只需极少量初始设置。有关如何设置预配置的警报属性的详细信息,请参阅警报配置

节点运行状况

Vertica 提供以下预配置的警报来监控节点运行状况:

  • 节点 CPU

  • 节点内存

  • 节点磁盘使用情况

  • 节点磁盘 I/O

  • 节点 CPU I/O 等待

  • 节点重新启动速率

  • 节点状态更改

  • 节点编录内存

网络运行状况

Vertica 提供网络 I/O 错误预配置警报,以监控网络运行状况。

查询

Vertica 提供以下预配置的警报来监控查询:

  • 队列中的查询

  • 失败的数量

  • 查询的数量

  • 已溢出查询的数量

  • 已重试查询的数量

  • 查询的运行时间

许可证状态

Vertica 提供了许可证使用情况预配置警报来监控 Vertica 许可证的状态。

资源池

当单个资源池达到指定状态或使用级别时,MC 可以发送警报。有关资源池配置参数的详细信息,请参阅内置资源池配置

您可以将 MC 配置为发送以下资源池警报:

  • 达到允许的最长执行时间的查询 (Queries Reaching the Max Allowed Execution Time):当指定数量的查询达到资源池的 RUNTIMECAP 执行阈值时触发警报。如果资源池未设置 RUNTIMECAP 阈值或资源池包含辅助资源池,则无法设置此警报。

  • 存在资源拒绝的查询 (Queries With Resource Rejections):当在设置的时间段内指定数量的查询超出指定数量的 资源拒绝时触发警报。

  • 最小起始资源值 (Minimum Starting Resource Value):当资源池达到为 MEMORYSIZE 值分配的最小资源量时触发警报。

  • 允许的最大资源值 (Maximum Allowed Resource Value):当资源池达到 MAXMEMORYSIZE 值时触发警报。

  • 因排队时间超过限制而终止的查询 (Ended Query With Queue Time Exceeding Limit):当指定数量的已完成查询在时间范围内排队达到指定时长时触发警报。

  • 因运行时间超过限制而终止的查询 (Ended Query With Run Time Exceeding Limit):当指定数量的已完成查询在时间范围内运行达到指定时长时触发警报。

自定义警报

创建自定义警报以度量预配置警报未监控的系统性能指标。创建动态 SQL 查询,无论返回任何结果均触发警报。您可以配置生成警报的频率、警报优先级以及接收电子邮件警报的人员。例如,您可以创建自定义警报来监控以下数据:

  • 可配置时间段内的登录失败次数

  • 使用可配置时间限制的空闲 Vertica 用户会话数

  • 数据库节点故障

有关创建和管理自定义警报的详细信息(包括关于如何创建监控登录失败次数的自定义警报的教程),请参阅自定义警报

默认通知

管理控制台生成以下数据库相关消息,这些消息仅在消息中心 (Message Center) 显示:

  • 磁盘空间不足

  • 只读文件系统

  • K-safety 丢失

  • 当前容错能力处于临界水平

  • ROS 容器过多

  • 节点状态变更

  • 恢复错误

  • 恢复故障

  • 恢复锁定错误

  • 恢复投影检索错误

  • 刷新错误

  • 刷新锁定错误

  • 工作负载分析器操作

  • Tuple Mover 错误

  • 计时器服务任务错误

  • 上一个完好的时期 (LGE) 延迟

  • 许可证大小合规性

  • 许可证期限合规性

磁盘空间检查和清理

当管理控制台检查警报时,将生成结果集并将其保存到磁盘中。如果使用主动警报配置,结果集可能会占用大量磁盘空间。默认情况下,Vertica 预留 500MB 磁盘空间用于保存结果集。

Vertica 每天检查 2 次可用磁盘空间并清除超过 7 天的警报。如果可用磁盘空间不足,则禁用自定义警报。因磁盘空间不足而禁用警报时会生成通知和电子邮件。

/opt/console/vconsole/config/console.properties 文件包含这些设置。编辑以下值来配置 MC 如何管理您的磁盘空间: