引言:随着业务的发展,模型应用场景的增加,AI 工程化落地成为了不少企业面对的切实挑战。近几年,应对这个痛点的新概念——MLOps 逐渐成为了机器学习领域的热门话题。OpenMLDB 提供FeatureOps 全栈解决方案,积极打通 MLOps工具链,建立起一个标准化的模型开发、部署与运维流程,降低开发者落地 AI 的门槛,使得企业组织能够更好地利用机器学习的能力来促进业务增长。
1、OpenMLDB内部框架
OpenMLDB的内部架构可简单分为在线引擎和离线引擎两部分,分别支持在线特征计算和离线特征计算。
关于OpenMLDB
OpenMLDB 是一个开源机器学习数据库,致力于闭环解决 AI 工程化落地的数据治理难题。自2021 年 6 月开源以来,OpenMLDB 优先开源了特征数据治理能力,依托 SQL 的开发能力,为企业提供全栈功能的、低门槛特征数据计算和管理平台。 OpenMLDB 包含 Feature Store 的全部功能,并且提供更为完整的 FeatureOps 全栈方案。除了提供特征存储功能,还具有基于 SQL 的低门槛数据库开发体验、面向特征计算优化的 OpenMLDB Spark 发行版,针对实时特征计算优化的索引结构,特征上线服务、企业级运维和管理等功能,让特征工程开发回归于本质——专注于高质量的特征计算脚本开发,不再被工程化效率落地所羁绊。MLOps完整生命周期
在机器学习解决方案的开发、测试、部署、支持过程中,分工合作的多学科专家或团队会在协作中遇到许多沟通难题和技术障碍,这些痛难点不仅延长了产品工程化落地的时间,还增加了成本、减少了价值空间。 为了消除这些障碍,MLOps这一概念应运而生,并在近几年承接了广泛的关注和极大的期待,MLOps旨在统一 ML 系统开发(dev)和 ML 系统部署(ops),以标准化过程生产高性能模型的持续交付,达到更快试验和开发模型、更快将模型部署到生产环境、保证质量的目的。 在MLOps 运作的闭环流程中,MLOps常被分为离线开发和线上服务两个部分,对应着机器学习相关开发中,模型训练和模型上线的两个部分。当我们把这离线开发和线上服务放置在企业级的生产场景当中,它们又可以进一步地拆解为 DataOps、FeatureOps 和 ModelOps 三个环节。- 在离线开发中,DataOps 承担数据采集、存储的工作,FeatureOps 进行特征的储存、共享和离线特征计算,ModelOps 负责模型训练以及超参数调优
- 在线上服务时,DataOps 承担在线推理、结果数据回流的工作,FeatureOps 进行实时特征计算与特征服务 ,ModelOps 负责实时数据流接入以及处理实时请求