集群巡检
Doris Manager 内置集群巡检功能,回收集群/操作系统信息,检查数据质量,分析 SQL 性能等操作。
启动集群巡检
在导航栏菜单选择巡检,并点击立即巡检,可以对集群进行巡检操作。
巡检的异常状态分为三类:
-
执行失败:在执行过程中,没有成功的返回结果,可能由权限、机器环境设置、集群可用性导致。
-
警告:该类状态的巡检项可能对集群的健康运行产生重大影响,您可以点开 查看建议 了解如何进行修复。
-
提示:该类状态的巡检项可能对集群的健康运行产生一定影响或者带来潜在风险,您可以点开 查看建议 了解如何进行修复。
同时,您还可以通过点击 导出 ,将巡检报告以 PDF 或 Markdown 格式下载到本地。
启用定期巡检
巡检功能支持定期巡检,可以按需配置巡检周期及巡检通知。
添加自定义巡检
Doris Manager 支持通过定制化脚本扩展巡检项功能。
-
修改
user-defined-tasks.json
脚本在
webserver/inspection/script/user-defined-tasks.json
文件中添加脚本扩展巡检项。如下例中,添加了 CheckBadTablet 与 CheckSwapOff 两个自定义巡检项:
{ "tasks": [ { "name": "CheckBadTablet", "source": "DORIS", "reason": "ensure tablets are all healthy.", "script": "CheckBadTablet.sh", "timeout": 600, "enabled": false }, { "name": "CheckSwapOff", "source": "AGENT", "reason": "doris be requires swap off.", "script": "CheckSwapOff.sh", "timeout": 600, "enabled": true } ] }
其中参数介绍如下:
参数 含义 name 巡检名称,会显示在巡检报告中 source 可以选择 DORIS 或 AGENT: script 巡检脚本名称,需要确保脚本在 webserver/inspection/script/
目录下timeout 脚本执行的超时时间 enabled 脚本是否开启,true 代表开启巡检项 -
修改自定义巡检脚本
在创建自定义脚本时,需要运行 Manager 的用户具有执行脚本的权限,可以参考模板 agent_demo.sh 与 doris_demo.sh 脚本:
-
agent_demo.sh:AGENT 类型的脚本,会向每一个 agent 机器执行 sehll 命令
-
doris_demo.sh:DORIS 类型的脚本,会向 Doris 集群发送 SQL 命令
-
-
运行巡检并查看结果
在添加自定义巡检后,点击巡检按钮,可以在巡检报告最后方查看到自定义巡检结果。