OpenMLDB 开源机器学习数据库,提供线上线下一致的生产级特征平台。

技术动态

十月 v0.6.3 & v0.6.4 新特性

  • 离线引擎升级到支持 Spark 3.2.1

  • 增加 ValidateSQL 接口

  • CLI 时间显示日期改进

  • 支持在线 batch 模式

  • 支持全表聚合

  • 支持和 TaskManager 解耦,导入本地数据

十月主要 Bug 修复

  • 名称服务器重新启动后,部署可能无法恢复

  • 如果第一列的类型是 bool, 则无法解析函数 count_where

  • 如果索引已被删除,则重新创建索引会失败

来自社区开发者的实验特性

  • 自动特征工程 by explcre

  • 数据导出工具 by xiaopanz

  • GoSDK by qsliu2017

学术动态

论文发表

A System for Time Series Feature Extraction in Federated Learning

第四范式和新加坡国立大学合作的论文 "A System for Time Series Feature Extraction in Federated Learning" 被 CIKM 录取。该论文主要描述了基于 OpenMLDB 的时序数据特征抽取的语义,扩展到联邦学习的创新性研究工作。该方案进一步和流行的开源联邦学习框架 FATE 进行了无缝整合,进行了开源并且可以直接运行。经过实验验证,使用该方案的 FATE 应用模型质量(AUC)提升 3% , 召回率提升 10%;在广告投放业务中,带来 10% 的投放增效。

file

社区动态

社区规模

  • 截至十月底,OpenMLDB 社区累计收获了 1.7K Star,604 fork,123 watch。
  • 截至十月底,共有 128 位开发者在社区做出贡献,累计产生 issue 共 1311 条、PR 1372 个。
  • 十月中,OpenMLDB 进行了两次小版本迭代,发布了 v0.6.3 和 v0.6.4。

社区活动

分享活动

  • 10月11日 15:35-16:00

    OpenMLDB PMC 卢冕参与 AI for Good 2022 峰会,进行了以“OpenMLDB:A Real-Time Feature Platform Computing Consistent Features for Training and Inference”为主题的分享。

  • 10月12日 7:05-7:15

    OpenMLDB PMC 卢冕在 Feature Store Summit 2022 活动中为大家带来议题为“OpenMLDB: An Open-Source Real-Time Feature Platform Computing Consistent Features for Training and Inference”的内容分享。

  • 10月27日 14:30-15:30

    OpenMLDB PMC 张浩在 2022 SACC 中国系统架构师大会 中受邀分享“开源机器学习数据库 OpenMLDB:线上线下一致的高可用特征平台”的主题演讲。

贡献活动

  • OpenMLDB Bug 悬赏令在十月开启。

  • OpenMLDB 贡献者任务第五期、开发者嘉年华、开源摘星活动活动持续进行中。

  • 期待各位开发者在贡献活动中获得技术上成长进步,也在开发应用中加深对 OpenMLDB 的了解,与 OpenMLDB 共建包容有活力的开源社区。

file

file

file

file

Meet us

OpenMLDB github 主页(更多十月技术动态请关注这里!): https://github.com/4paradigm/OpenMLDB

OpenMLDB 微信交流群

file