在刚刚过去的周末,OpenAI 宣布收购了知名实时分析型数据库厂商 Rockset。OpenAI 表示,“AI 技术有望改变人们和组织运用自身数据的方式”,这也是 OpenAI 收购 Rockset 的原因,后续会将 Rockset 技术整合到 OpenAI 产品中,为其产品增强数据处理和分析服务的能力。
OpenAI 的收购宣布不仅在科技界引起了巨大反响,更让人们对 Rockset 的独特能力产生了浓厚的兴趣。Rockset 成立于 2016 年,最初由前 Facebook 基础设施团队工程总监 Venkat Venkataramani 创立,专注于提供实时分析数据库服务。
而 Rockset 之所以备受瞩目,除了其向量检索的技术亮点(vector search)以外,与传统数据仓库相比,更是展现出了几项引人注目的特色功能:
- 实时数据更新:Rockset 能支持数据实时更新且允许在单字段级进行更新,数据更新操作耗时仅在毫秒级,确保用户能获取到最准确、最新的实时信息;
- 创新的 Converged Index:Converged Index 融合了倒排索引、行存和列存等,为用户提供了更加灵活和高效的数据检索方式;
- 卓越的 JSON 数据支持:对于当前越来越普遍的半结构化数据(如 JSON)hash joins and nested loop joins,,Rockset 提供了出色的支持,使得对于 JSON 数据的处理变得轻而易举;
- 全面的 SQL 与 JOIN 兼容性:Rockset 的 Search Index 面向 JOIN 查询场景进行多种优化,满足用户多样化的数据分析需求;
在 OpenAI 宣布收购 Rockset 后,市场上出现了许多声称可以替代 Rockset 的系统,但就其核心特性而言,真正具备全面支持上述能力的系统却并不多见。在这方面,Apache Doris 无疑是一个值得关注的选项。
作为一款功能强大的开源实时数据仓库,Apache Doris 不仅在全球范围内拥有广泛的用户基础,更在对 Rockset 特性的支持上表现得尤为出色:
- 实时主键更新技术:Apache Doris 不仅支持数据的实时更新与删除,更支持实时数据的部分列更新,这一功能在用户需要频繁更新数据的情况下显得尤为实用;
- 行列混存:为了满足不同场景下的性能需求,Apache Doris 在原有列式存储的基础上引入了行式存储。列式存储可实现极速的 OLAP 分析,在业界知名的分析型数据库性能评测榜 ClickBench 中取得了全球第一的成绩;而行存储则专为高并发点查询设计,能够轻松应对数十万的查询请求,实现毫秒级的响应延迟。
- 强大的倒排索引与全文检索能力:对于非结构化文本数据,Apache Doris 提供了强大的关键词和短语检索功能。用户可以为所有字段建立索引,并根据多维度条件进行任意组合检索,极大地提高了数据检索的灵活性和效率。
- 高效的半结构化数据分析:针对 JSON 等半结构化数据,Apache Doris 专门设计了 VARIANT 数据类型。这一数据类型不仅实现了灵活的数据模式定义,还提供了高效的存储和性能卓越的分析能力。与传统的JSON数据分析方法相比,使用 VARIANT 数据类型可以带来高达10倍的性能提升。
- 完整的 SQL 与 JOIN 支持:Apache Doris 全面支持 SQL 语法,并与 MySQL 的语法和接口高度兼容。Apache Doris 提供了丰富的 JOIN 操作支持,包括 INNER JOIN、CROSS JOIN 以及各种类型的 OUTER JOIN 等。更重要的是,Apache Doris 能够根据数据类型和分布自动进行性能优化,确保用户始终能够获得最佳的分析性能。
值得一提的是,Apache Doris 作为 Apache 基金会旗下的顶级项目,拥有着一个活跃且不断壮大的社区。在 GitHub 上,该项目已经获得了超过 11.8k 的星标和 636 位开发者的支持。全球范围内,更有超过 4000 家企业用户正在使用 Apache Doris 来满足他们的数据分析需求。
而作为 Apache Doris 的商业化服务提供商,SelectDB 则为用户提供了更为丰富和专业的产品与服务选择。其推出的 SelectDB Cloud 服务,在 Apache Doris 的基础上进一步实现了存储与计算的分离,为用户提供了前所未有的弹性扩展能力和更高的性价比。通过 SelectDB Cloud,用户不仅可以享受到云端的 SaaS 服务带来的便捷性,还可以完全摆脱繁琐的数据仓库运维工作,专注于自己的核心业务分析需求。