# OpenMLDB vs Redis 内存占用量测试报告 ## 背景 OpenMLDB 是一款开源的高性能全内存 SQL 数据库,在时序数据存储、实时特征计算等方面都有很多创新和优化。Redis 是业界最流行的内存存储数据库,广泛应用于缓存等高性能在线场景。虽然二者应用场景不尽相同,但作为都是使用内存作为存储介质的数据库,希望通过对相同数据行数下的内存占用量进行测试对比,让客户直观了解二者在内存资源上的消耗占比。 ## 测试环境 本次测试基于物理机部署(40C250G * 3),硬件信息如下。 | 硬件 | 配置 | | --------- | ----------------------------------------- | | CPU | Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz | | Processor | 40 Cores | | Memory | 250 G | | Storage | HDD 7.3T * 4 | 软件版本具体如下。 | 对比产品 | 版本 | 部署模式 | 内存统计方式 | | --------- | ----- | --------------------- | --------------------------- | | OpenMLDB | 0.8.5 | 集群模式(2 tablets) | 内置命令(show table status)| | Redis | 7.2.4 | 单机模式 | 内置命令(info) | ## 测试方法 使用 Java 开发测试工具,使用OpenMLDB Java SDK 和 Jedis,分别向 OpenMLDB 和 Redis 插入相同的数据,对比两者的内存占用情况。因为两者支持的数据类型和数据存储方式的不同,实际数据插入方式有一定的差异。因为特征数据都是有时序的,为了尽可能贴近用户的实际使用情况,我们设计了两种测试方式。 ### 方法一:随机生成数据数据集 设计每一个测试数据集都有 m 个 key作为主键,每个 key 可能有 n 个不同的 value(模拟时序性)。简单起见,这里 value 就只用 1 个字段表示,可以通过配置参数分别控制 key 和 value 字段长度。对应到 OpenMLDB,创建一个包含( key,value)两列数据的测试表,以每一个 key:value 作为一条数据,插入测试表中。对应到 Redis,以每个 key 作为键,以这个 key 对应的多个 value 组合为 zset,存储到 Redis 中。 #### 举例 计划测试 100万(记为1M)个 key,每个 key 对应有 100 条时序数据。则实际存储时,OpenMLDB 中存储的实际数据量为 1M * 100 = 100M,即 1 亿条数据。而 Redis 中,则是存储 1M 个键,每个 key 对应的 value 为包含 100 个成员的 zset。 #### 可配置参数 | 配置项 | 说明 | 默认值 | | ------------------ | -------------------------------------------- | --------------------------------- | | KEY_LENGTH | key 的长度 | 50 | | VALUE_LENGTH | 单个 value 的长度 | 100 | | VALUE_PER_KEY | 每个 key 对应的 value 个数 | 5 | | TOTAL_KEY_NUM | 想要测试的 key 数量。解析为列表,依次循环进行测试 | 1000,10000,100000,500000,1000000 | | REDIS_HOST_PORT | redis 的连接参数 | 127.0.0.1:6379 | | OPENMLDB_TABLE_NAME| OpenMLDB 的测试表名 | test_db | | ZK_CLUSTER | zk 的连接参数 | 127.0.0.1:2181 | | ZK_PATH | zk path | /openmldb | #### 操作步骤(复现路径) 1. 部署 OpenMLDB 和 Redis:部署可以使用容器化部署或者使用软件包在物理机上直接部署,经过对比,两者无明显差异。下边以容器化部署为例进行举例描述。 - OpenMLDB: - 镜像:`docker pull 4pdosc/openmldb:0.9.2` - 文档:https://openmldb.ai/docs/zh/main/quickstart/openmldb_quickstart.html - Redis: - 镜像:`docker pull redis:7.2.4` - 文档:https://hub.docker.com/_/redis 2. 拉取[测试代码](https://github.com/4paradigm/OpenMLDB/tree/main/benchmark) 3. 修改配置 - 配置文件:`src/main/resources/memory.properties` -- [[link](https://github.com/4paradigm/OpenMLDB/blob/main/benchmark/src/main/resources/memory.properties)] - 配置说明:必须确认`REDIS_HOST_PORT`和`ZK_CLUSTE`配置与实际测试环境一致, 其它配置为测试数据量相关配置,请按需配置。注意:如果数据量过大,测试耗时会比较长。 4. 运行测试:【github benchmark Readme 中相关路径】 5. 查看输出结果 ### 方法二:使用开源数据集TalkingData 为了使结果更具说服力,覆盖更多的数据类型,也便于复现和对比结果,我们也设计使用开源数据集进行测试。数据集为OpenMLDB 典型案例 [TalkingData(广告欺诈检测数据集)](https://openmldb.ai/docs/zh/main/use_case/talkingdata_demo.html)。这里使用 TalkingData 的 train 数据集,其获取方式如下: - 采样数据:[OpenMLDB 中的典型案例使用的采样数据](https://github.com/4paradigm/OpenMLDB/blob/main/demo/talkingdata-adtracking-fraud-detection/train_sample.csv) - 全量数据:[kaggle](https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/data) 方法一略有不同,TalkingData 数据集包含多列数据,包含字符串、数字和时间类型。为了让存储和使用更符合实际应用场景,这里设计使用TalkingData的 ip 列作为 key 进行存储。对应到 OpenMLDB 中,即创建一个和 TalkingData数据集对应的数据表,为 ip 列创建索引(OpenMLDB 默认为第一列创建索引)。对应到 Redis,以 ip 为键,以其他列数据的 JSON 字符串组成 zset 进行存放(TalkingData作为时序数据,存在多行数据具有相同 ip 的情况)。 #### 举例 | ip | app | device| os | channel | click_time | is_attributed | | ----- | ------ | ----- | ------ | ------- | ------------------- | ------ | | 925 | 15 | 1 | 13 | 245 | 7/11/2017 16:14 | 0 | | 925 | 18 | 1 | 19 | 107 | 8/11/2017 2:30 | 0 | | 925 | 24 | 2 | 13 | 178 | 8/11/2017 10:33 | 0 | | 925 | 21 | 1 | 26 | 128 | 7/11/2017 5:50 | 0 | | 925 | 14 | 2 | 41 | 467 | 8/11/2017 15:09 | 0 | | 944 | 2 | 1 | 6 | 377 | 8/11/2017 2:35 | 0 | | 944 | 18 | 1 | 13 | 439 | 8/11/2017 22:21 | 0 | | 944 | 12 | 1 | 19 | 481 | 7/11/2017 23:17 | 0 | | 960 | 15 | 1 | 19 | 430 | 8/11/2017 4:32 | 0 | | 973 | 12 | 1 | 13 | 178 | 9/11/2017 2:35 | 0 | #### 可配置参数 | 配置项 | 说明 | 默认值 | | ----------------- | ----------------- | ----------------- | | REDIS_HOST_PORT | redis 的连接参数 | 127.0.0.1:6379 | | ZK_CLUSTER | zk 的连接参数 | 127.0.0.1:2181 | | ZK_PATH | zk path | /openmldb | #### 操作步骤(复现路径) 1. 部署 OpenMLDB 和 Redis:同方法一,这里不再重复。 2. 拉取[测试代码](https://github.com/4paradigm/OpenMLDB/tree/main/benchmark) 3. 修改配置 - 配置文件:`src/main/resources/memory.properties` -- [[link](https://github.com/4paradigm/OpenMLDB/blob/main/benchmark/src/main/resources/memory.properties)] - 配置说明: - 确认`REDIS_HOST_PORT`和`ZK_CLUSTER`配置与实际测试环境一致; - 修改`TALKING_DATASET_PATH`(默认使用 `resources/data/talking_data_sample.csv`) 4. 获取测试数据文件并放到`resources/data`目录下,和`TALKING_DATASET_PATH`配置路径一致 5. 运行测试:【github benchmark Readme 中相关路径】 6. 查看输出结果 ## 测试结果 ### 随机数据集测试结果 | Key 数据量 | RedisMem (bytes) | OpenMLDBMem (bytes) | Reduction percent* | |------------| ---------------- | ----------------- | ------------------ | | 1k | 2,769,280 | 1,286,704 | 53.54% | | 10k | 19,864,176 | 12,873,424 | 35.19% | | 100k | 190,316,568 | 128,754,536 | 32.35% | | 200k | 379,537,928 | 257,521,192 | 32.15% | | 500k | 944,725,616 | 643,863,920 | 31.85% | | 1m | 1,884,007,736 | 1,287,708,720 | 31.65% | | 2m | 3,753,713,064 | 2,575,360,296 | 31.39% | ![test-result-1](images/20240402-test-res-1.png) 在前述实验条件下,存储同样数量的数据,OpenMLDB(内存表模式)的内存使用量相对于 Redis 少 30% 以上。 ### TalkingData 数据集测试结果 | Dataset | 数据量(条) | RedisMem (bytes) | OpenMLDBMem (bytes) | Reduction percent | |---------------------------| ------------ | ---------------- | ------------------- | ----------------- | | talking-data-train-sample | 10,000 | 9,272,328 | 2,339,699 | 74.77% | | talking-data-train-sample | 100,000 | 48,501,288 | 15,624,290 | 74.77% | | talking-data-train-sample | 1,000,000 | 215,323,024 | 105,722,441 | 50.90% | | talking-data-train-sample | 10,000,000 | 1,897,343,984 | 1,008,276,458 | 46.86% | | talking-data-train | 184,903,890 | 34,071,049,864 | 18,513,271,540 | 45.66% | ![test-result-2](images/20240402-test-res-2.png) 得益于 OpenMLDB 对数据的压缩效果,在 TalkingData train数据集上, 截取小批量数据时,OpenMLDB 相对于 Redis的内存使用量,大幅降低 74.77%。随着测试用数据量的增加,因为TalkingData train 数据集本身的特点, 向 Redis 中存储时,存在大量的重复 key 的情况,OpenMLDB 相对于 Redis 的存储优势有所减小。直到将TalkingData train 数据集全部存入数据库,OpenMLDB 相对于 Redis,内存减少 45.66%。 ## 结论 在开源数据集 TalkingData 上,存储相同量级的数据,OpenMLDB 相对于 Redis,内存使用量减少45.66%。即便是 在纯字符串数据集上,OpenMLDB 相对于 Redis 也能减少 30% 以上的内存占用。 由于 OpenMLDB 采用了紧凑的行编码格式,各种数据类型在存储相同数据量时都得到了优化。这种优化不仅在全内存数据库中减少了内存占用,降低了服务成本,而且通过与主流内存数据库 Redis 进行存储测试比较,进一步展示了 OpenMLDB 项目在内存占用和服务总体成本(TCO)中拥有更优势的表现。