OpenMLDB v0.6 新版本运维功能增强 - OpenMLDB - 生产级特征开发全栈解决方案

导读

在过去的一个月里，OpenMLDB 快速迭代了多个小版本 (v0.6.4-v0.6.6)，在增强功能的同时，也提高了运维效率。在运维方面，进行了对易用性、可观测性、自动化等方面的改进。本文将介绍 OpenMLDB 在 v0.6 版本迭代过程中运维方面所做的优化。

增强的集群状态查询

针对数据库的异常状态展示，OpenMLDB 增强了 SHOW TABLE STATUS 命令，更有利于排查数据库可能存在的问题。相比之前，增加了更多的逻辑检查，还增加了一列 Warnings，用于显示当前数据库表格的异常状态。目前可以查询到的异常状态包括：

Nameserver 上记录的 leader/follower 信息和 tablet 上面的实际分布不一致。可能的原因为 tablet 或者 nameserver 访问 ZooKeeper 出现异常。
分片状态异常。包括分片不存在、未成功加载和正在加载中（稍等可用）。造成分片不存在或者未成功加载的原因可能为 tablet 重启后，未成功恢复出表中数据，比如 auto_failover 设置为 false 或者多副本表所在 tablet 异常退出，造成处于不可自动恢复状态。
副本数目和配置的 replicanum 不匹配。可能的原因为 tablet 启动后，部分副本恢复异常。
follower 和 leader 未连接（通常和上述的副本数目不匹配问题同时出现）。其可能的原因为添加新副本后，由于网络原因，tablets 和 nameserver 同步异常。

一般情况，当您重启服务时，表中数据会自动恢复，并不需要干预。但是如果出现上述的集群异常状态，一般需要进行手动数据恢复。在以前的 OpenMLDB 版本中，手动数据恢复需要登录 ns client 后手动运行一系列命令，相当复杂繁琐。为此，OpenMLDB 新增了一个运维工具，拥有一键数据恢复功能，运行以下命令实现：

python tools/openmldb_ops.py --openmldb_bin_path=./bin/openmldb --zk_cluster=172.24.4.40:30481 --zk_root_path=/openmldb --cmd=recoverdata

详情请参考运维 FAQ，地址：

python tools/openmldb_ops.py --openmldb_bin_path=./bin/openmldb --zk_cluster=172.24.4.40:30481 --zk_root_path=/openmldb --cmd=scaleout

详情请参考运维工具说明，地址：

目前，自动化迁移策略会分别对每个数据库下面的所有表进行分片的均衡，目标为分片数目在所有 tablets 上尽量平均。算法基于启发式算法，基本思路如下：

我们将持续改进分片自动迁移算法，以满足不同场景下的负载自动平衡。

了解更多：

OpenMLDB GitHub：

OpenMLDB 文档：