1. 会议内容
OpenMLDB 社区于 2022 年 4 月 16 日举行了第二期 meetup,会议相关视频及资料(如下:
- StreamNative 联合创始人翟佳——面向OpenMLDB的上游数据生态,深度解析云原生消息流平台 Apache Pulsar。OpenMLDB Meetup No.2 | 云原⽣的统⼀消息流平台 翟佳 - 知乎资料
- OpenMLDB 研发负责人卢冕——针对实时特征计算场景,介绍基于 OpenMLDB 的特征开发流程,以及机器学习特征计算平台架构。
OpenMLDB Meetup No.2 | 线上线下一致的生产级特征计算平台 - 知乎 资料
- OpenMLDB 研发架构师黄威——OpenMLDB Pulsar Connector 实战演练,带你高效打通实时数据到特征工程。
Meetup No.2 | OpenMLDB Pulsar Connector - 知乎 资料
(百度网盘资料领取密码均为 open)
2. 讨论交流
会议中,几位嘉宾和社区进行了讨论交流,这里我们展示部分问答如下:
Q1:除了计算逻辑性之外,OpenMLDB 有机制保证在离线数据一致性吗?
A:OpenMLDB 的离线和在线数据是分开存储引擎的。离线开发时候时候使用的数据和在线计算使用的数据大部分情况下都不是同一份,在线数据会随着时间推移不断引入新的只供给实时推理的数据。所以从这个角度来说,并没有必要去保持离线和在线数据的一致性。
Q2: 物联网分析适合使用 OpenMLDB 吗?
A:物联网的很多数据都是时序数据,带有时间戳。对于这种时序数据,理论上是非常适合使用 OpenMLDB 进行分析的,包括做特征计算。如果有相关的需求,欢迎大家在社区跟我们互动讨论。
Q3:OpenMLDB 提供哪些语言的 SDK?
A:目前 OpenMLDB SDK 可以支持 Python, Java,以及 REST APIs。
Q4:实时推理如果用 Flink,如何和批训练的 Spark 做到一致性?
A:如果实时推理部分使用了 Flink,目前是比较难和我们的 Spark 发行版做到计算一致性。主要两者并没有通过 OpenMLDB 的一致性引擎来生成计算逻辑完全一直的执行计划。因此还是比较推荐大家直接使用 OpenMLDB 的完整流程,来保证线上线下的一致性。
Q5:特征工程的算法可以在 SQL 中通过 UDF 扩展吗?
A:UDF 在本月即将发布的 0.5.0 版本里就会支持。目前会先支持 C/C++ UDF,稍后版本会支持 Python UDF。
Q6:OpenMLDB 和 Mysql 的本质区别在哪些方面呢?
A:MySQL 是一个 OLTP 数据库,和 OpenMLDB 的定位非常不一样。MySQL 可能也能完成部分的线上特征计算任务,但是它没有线上线下一致性的设计架构设计, 另外对于某些特征计算重要的操作(比如 OpenMLDB 优化的跨窗口聚合等),也并没有针对性优化。
Q7:OpenMLDB 和市场上同类产品或者开源工具相比有什么优势?
A:目前市场上有 Feature Store的产品,和 OpenMLDB 的定位比较类似,都是针对机器学习提供特征平台。但是大部分的 Feature Store产品,比如最有名的开源项目Feast,多没有提供实时的特征计算能力,没有在计算这一层去保证线上线下的一致性。他们更多的是打通离线计算的 features 和线上共享的能力。商业版 Tecton 提供类类似的实时计算能力,但是按照描述还是推送给 Spark 去做,所以预期在实时计算的性能上也没有做到优化。
Q8:特征ops 是指特征本身,还是提特征用到的算法,pca,fm 之类的。特征ops 和模型ops 有什么区别
A:这里的特征 ops 指的是提取特征本身的计算逻辑,而不是你提到的一些特征加工的算法。你基本上可以认为他是一个类似数据库 SQL 的数据处理逻辑。
3. OpenMLDB 社区
在此感谢大家对于本次 meetup 的大力支持,如果想进一步跟了解 OpenMLDB 或者参与社区技术交流,可以通过以下渠道获得相关信息和互动。
- Github: https://github.com/4paradigm/OpenMLDB
- Email: contact@openmldb.ai
- Slack
- OpenMLDB 微信交流群: