OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3 - OpenMLDB

简介

Amazon S3（以下简称 S3）是一种非常受欢迎的云存储服务，它以其卓越的扩展性、安全性和稳定性而广受全球企业和开发者的喜爱。在新发布的 OpenMLDB v0.8.0 版本中，新增加了对于 Amazon S3 作为离线数据源的支持，其带来的主要好处包括：

为了在 OpenMLDB 中使用 Amazon S3 作为离线数据源，需要做如下配置：

首先需要在 AWS 上注册帐号，并且创建有效的 AccessKey 和 SecretKey。
在 OpenMLDB 的 TaskManager 的部署文件 taskmanager.properties 中，添加以下配置，注意修改内容为个人的 AccessKey 和 SecretKey：

spark.default.conf=spark.hadoop.fs.s3a.access.key=xxx;spark.hadoop.fs.s3a.secret.key=xxx

以下“应用实践”展示详细使用步骤。完整产品文档参考： https://openmldb.ai/docs/zh/main/integration/offline_data_sources/s3.html 。

以下具体演示使用 OpenMLDB 直接访问 S3 数据进行特征抽取，并使用软链接方式避免从 S3 拷贝原始数据到本地。

第一步，注册 AWS 帐号，开通 S3 服务，并且申请可用的 AccessKey 和 SecretKey。 准备好后，我们可以使用浏览器或 S3 工具来上传数据到 S3 对应的 bucket 中，这里我们提前上传好数据文件。

file

第二步，启动 OpenMLDB 集群，按照官方文档配置好 AWS 的 AccessKey 和 SecretKey，启动后可以使用命令行（OpenMLDB CLI）的命令 SHOW COMPONENTS 测试 OpenMLDB 所有组件是否正常。

file

第三步，创建数据库和数据表进行测试。 这里创建一个数据库 db1 和数据表 t1。

file

第四步，使用 LOAD DATA INFILE 命令导入 S3 的数据到离线表中。 下图演示了把 OpenMLDB 设置为离线模式，并且导入 S3 的数据到离线表中：

file

导入成功后，可以看到数据表的离线存储中 symbolic paths 已经添加了 S3 的数据路径，而没有实际的数据拷贝。

第五步，我们可以使用 OpenMLDB SQL 进行离线特征抽取，直接读取 S3 上面的数据，并且把计算后的特征到处到本地进行模型训练，下面演示最简单的SQL例子。

file

此外，OpenMLDB 也支持把 S3 的数据导入到在线表中， 用于服务上线的冷启动。下图演示了把 OpenMLDB 设置为在线模式，并且导入 S3 的数据到在线表中：

file