12月8日,北京飞轮数据科技有限公司(简称:SelectDB)首次召开以“为数而生 因云而新”为主题的线上发布会,正式发布新一代云原生实时数仓 SelectDB Cloud。这是一款面向企业用户推出的运行在多云之上、全托管且 SaaS 化的云数据仓库,如今已上线阿里云、腾讯云、华为云和 AWS。作为 Apache Doris 的商业化公司,这也是 SelectDB 成立一年来,基于 Apache Doris 内核进行创新研发后,推出的首款商业化云端产品。
走向“以云数仓为中心”的全新现代数据栈时代 回顾数字化历史,从80年代首次提出大数据概念到今天,全球经济已经完全迈入数据和智能驱动的数字经济时代。数据分析技术也已经成为数字经济时代的核心生产力工具,它需要持续地进行现代化革新,来应对组织在数字化转型过程中面临的海量数据、实时分析、敏捷开发等一系列挑战。
大数据分析技术已经从传统数仓时代走过了湖仓并存时代,发展出了数据湖和实时数仓等技术。这些技术普遍以开源为主,比如 Hadoop / Hive / Spark / Flink 等,用于满足 PB 级数千台机器规模的离线计算存储;又比如 Druid / Clickhouse / Doris 等,用于满足高并发低延时特点的在线报表与分析、行为分析和画像等新型数据应用。随着云计算的广泛普及和产业互联网的到来,这些技术系统的复杂性和开发维护投入为它们在更广泛产业群体中应用和普及造成了很多障碍。用户普遍需要的是一个系统复杂度低、性价比高、简单易用的数据分析平台方案,这也成为了全球范围数据分析技术的发展潮流。因此,一个全新的现代数据栈时代已经来临,其最重要特征就是以云数仓为中心,这将会是一次数据分析技术的革新和普惠期。
作为现代数据栈的核心,云数仓已经呈现出三大变革趋势。即实时化、统一化与云原生化。
实时化:千或万级高并发、毫秒级低延迟、高吞吐、走向分钟级的数据产出效率成为了数据分析技术的关键词。 统一化:湖仓一体、在离线一体、流批一体等智能湖仓的理念加速了平台和接口的统一;计算模型的融合、多模数据类型支持进一步提高存储计算的效能,降低运维门槛。 云原生化:数据仓库结合云的软硬件创新、资源弹性、安全可靠、随需而用等云原生特色,从根本上带给用户极致性价比和极简使用体验。 技术和产品创新的本质是契合广大用户的诉求和新技术的演进趋势,SelectDB Cloud 就是在这样的时代背景下应运而生,引领最新的数仓技术和产品创新。
国内首款多云中立的云原生实时数仓 SelectDB Cloud
SelectDB 作为 Apache Doris 的商业化公司,是实时数仓技术的引领者。而此次发布的 SelectDB Cloud 也是当前国内首个真正实现多云中立的云原生实时数仓。作为一个采用完全存算分离架构、随需而用的企业级云数仓,SelectDB Cloud 的五项优势在于极致性价比、融合统一、简单易用、企业特性和开源开放。下面我们具体来了解一下 SelectDB Cloud 的产品特性和优势。
首先是超高的性能表现。作为一款数据分析基础软件,性能对于用户来说是关键。与同类产品相比,SelectDB Cloud 性能遥遥领先,在宽表聚合场景和多表关联场景上均表现出巨大的性能优势。其中,在宽表聚合场景下,使用 SSB-flat 测试,SelectDB Cloud 是 ClickHouse 的3.4倍,是 Presto 的92倍,是业界标杆产品 Snowflake 的6倍。在多表关联场景下,使用 TPC-H sf100 测试,SelectDB Cloud 的性能是友商的1.5倍(Redshift)~ 49倍 (ClickHouse),是业界标杆产品Snowflake 的2.5倍。而此次发布会前不久,SelectDB 利用强大的技术优势在全球分析型数据库排行榜 ClickBench 上取得了领先全球知名品牌的优异成绩,多项指标世界第一。例如在常用机型 c6a.4xlarge, 500gb gp2 的测试下,SelectDB 在未进行任何调优的情况下,查询性能在所有同类产品中位列第一,Hot Run 和 Cold Run 性能得分 分别领先第二位 35% 和 25%。在汇集了多个不同机型的总榜中,SelectDB 在所有同类型产品中依旧取得了 Cold Run 查询性能第一,Hot Run 查询性能第二的优异成绩。在全部 43 个 SQL 中,有近半数的查询语句 SelectDB 性能表现最优,成为新的性能标杆。
而SelectDB Cloud 如此优异的性能背后是哪些黑科技呢?经过深究,我们发现:首先SelectDB 采用MPP查询框架,这可以充分利用多节点并行和节点内多核并行,支持多张大表的分布式 shuffle join,以及自适应动态执行技术;其次就是向量化的执行引擎可以大幅减少虚函数调用,提高 cache 命中率,高效利用 SIMD 指令,从而使算子的性能可以提升数十倍;另外就是SelectDB 采用了列式存储,使得编码、压缩、处理都非常高效,丰富索引结构加速数据过滤,物化视图加速查询效率,同时多种存储模型可以实现针对不同场景的优化;最后就是SelectDB 采用 RBO 和 CBO 结合的智能优化策略实现最佳性能和效率,短路径优化能支持数万QPS的并发点查。依靠这些核心技术,SelectDB Cloud 已经是一款可以在全球市场与一流品牌相媲美的中国新一代云数仓产品。
在用户的感知里,高性能往往伴随着高成本。但是 SelectDB Cloud 区别于同类产品的一大优势恰恰就是极致的性价比。
SelectDB Cloud 依托全新的云原生架构设计将成本降到了极低,它全新的存算分离架构,实现了本地磁盘缓存和对象存储的分层分级存储引擎,也实现了计算节点的分离和弹性,使得计算资源根据业务的波峰波谷特点随需弹性扩缩容。这些技术使得 SelectDB Cloud 的综合成本低至自有部署成本的1/2~1/5,而性能依然比同类产品快至少1.5倍以上。当前已经有不少客户开始享受到产品的收益,例如 SelectDB 帮助海程邦达完成了数仓构建,在供应链物流业务的多样分析场景中,查询延时从56.6秒降低到0.649s,查询时间足足降低了99%。
除了高性价比,融合统一也是 SelectDB Cloud 的一项卖点。SelectDB Cloud 致力于解决湖仓并存方案的复杂性和冗余性。传统的企业因系统过多、架构复杂而存在组件多、接口多、维护困难、资源浪费等问题。相比较而言,用户仅需安装 SelectDB Cloud 一个系统就可以满足多种负载,还能同时支持结构化和半结构化的数据分析,以及负载隔离,大大提高了计算效率。而这背后的技术优化来源于三个核心技术,即混合负载、结构化/半结构化数据支持以及湖仓一体。 首先是混合负载,除传统OLAP场景,SelectDB Cloud 也着力解决 Spark / Hive 等传统批量数据处理(ETL/ELT)的性能和效率问题。在 SelectDB Cloud 上可以将大批量的离线 ETL 变成实时、小批量和增量的ETL,并使用 dbt 等工具配合构建数据变换。利用 SelectDB Cloud 全内存的框架和向量化的引擎,结合简单便捷的标准 SQL 和 Java UDF 的个性化处理,可以实现极大的性能和效率提升。一个典型ETL(SSB 100G打平成SSB宽表的过程)测试显示,基于 SelectDB Cloud 的性能是 Hive 的54倍,Spark的12倍,某友商云数仓的8.4倍。 其次是结构化/半结构化支持,SelectDB Cloud 高效原生地支持了半结构化数据的高效存储和检索分析,在半结构化数据的灵活高效存储方面,支持了Array、JSONB、Map 等复合数据类型,支持灵活快速的 schame 变更,最重要的是支持动态 schema 表,可以自动识别数据的字段和类型、自动扩展新字段、动态扩展表结构 。在半结构化数据高效分析和处理方面,支持包含倒排索引、BKD索引、N-Gram 等丰富的索引结构来加速检索分析,支持向量化的字符串处理和匹配函数 。SelectDB Cloud 用在日志存储分析典型场景下,相比传统的 ElasticSearch 的方案,能够达到4.2倍写入性能提升,占用1/5的磁盘空间,达到2.3倍的查询性能提升。 最后是湖仓一体,SelectDB Cloud 支持对已经建设的离线数仓和数据湖进行联邦查询,实现高性能的同时,不需要迁移历史数据。第一,支持便捷的元数据打通,通过 Multi-Catalog 机制自动映射外表元数据,自动完成database 和 table schema 的同步,同时对热的元数据自动 cache,并且能够支持手动和自动刷新;第二,支持多种外表的联邦查询,包含Hive、Iceberg、Hudi、关系型数据库、ES、以及各种支持HMS协议的云数仓。基于这些能力,利用 SelectDB Cloud 极致的查询引擎性能,并结合对热数据的 cache,SelectDB Cloud 能够达到相比Trino 3-5倍的性能优势。
除了上述重点优势, SelectDB Cloud 兼容 MySQL 连接协议、面向管理员简单便捷的管理控制台、丰富的数据导入方式、分层的用户权限体系、安全便捷的连接方式、以及开源开放、多云中立等特色,都能很好地满足众多行业用户尤其是传统行业用户的建设需求。
面向业务场景的解决方案,打通数仓落地的最后一公里
SelectDB Cloud 可以应用在多种多样的数据分析应用场景中,此次发布会 SelectDB 以业务场景的视角持续推出了四大最佳实践和解决方案,打通数仓落地的最后一公里。
面向企业内部的现代化数据平台
现状分析: 当前企业普遍使用典型的湖仓并行架构方案,既有面向批量的多个组件、也有面向交互分析的多个组件,甚至不止一个湖一个仓。这样的数据平台解决方案存在的问题主要集中在复杂性高、性价比低、实时性差。
技术优化 采用了 SelectDB Cloud 的现代化数据平台方案将统一数据仓库和数据湖到单一平台,提供面向企业内部的 BI 报表和 Adhoc 分析,以及批量和增量 ETL 数据处理。它的特点就是以 SelectDB 云数仓为中心:提供三种数据集成方式(ETL、轻量 ELT、联邦查询)将数据接入到 SelectDB;存算分离架构降低资源成本、多计算集群设计实现计算隔离、多云一致保证开放性;单一数仓提供多种分析负载的支持。
方案收益:
复杂性降低,成本和门槛下降:管理成本下降,数据平台收敛为了一个以云数仓为中心的架构。并且云数仓是一个云服务,不需要客户自己运行和维护;使用者使用的门槛降低了,不需要学习多套系统。 平台的经济性提升,提供了极高的性价比:综合资源成本降低,数据只存一份,存算分离、冷热分层、弹性扩缩容发挥优势;数据链路大大缩短,采用新型 ELT 数据集成和SelectDB 世界领先的性能为平台实时性带来质的提升。 多云可用,与开源系统的数据自由迁移,成为一个开放的系统,客户不用担心自己被锁定。
面向外部客户的报表与分析
现状分析:面向客户的报表和分析场景很多,比如面向站长的站点统计报表和分析、面向广告主的广告投放报表和分析平台等,这类场景的应用特点是高并发,低延时;数据流延时低;数据不丢不重;支持数据更新。
技术优化:高并发方面,采取分区、分桶裁剪,sort key 裁剪,和点查的短路径优化;在查询速度上,采用物化视图,预聚合模型,和向量化的 MPP 查询引擎;另外,支持了 Flink CDC 和高频次小批量导入;支持事务性两阶段导入;基于云的对象存储做数据持久化;同时,使用 repalce if not null,能够以小批量的形式便捷更新数据。
方案收益:
全面提升:SelectDB Cloud 针对报表场景能够达到上万并发;能够做到毫秒级别响应;针对数据流延时低的诉求,数据可见性最快可以做到秒级别;数据可靠,不丢不重。 基于 SelectDB Cloud 的方案,某用户的广告业务场景,实现了上万 QPS 的高并发,查询延时99分位200ms以内,每天新增数十亿条记录。 用户画像与行为分析 现状分析:行为分析场景有三个特点,分别是表结构持续快速变更、分析复杂、查询延迟要求低。而用户画像的场景有两个特点,标签实时更新和快速人群圈选。
技术优化:针对上游数据源,将数据同步到 SelectDB Cloud 做实时行为分析,冷数据同步到数据湖中做低成本数据存储及挖掘;在存储层,行为数据抽取出标签数据分层存储;在查询层则提供了丰富的分析函数,创建正交位图高性能物化视图,实现精确去重和留存分析等;在数据管理层则实现了维护高性能表结构变更及宽表部分列更新操作的支持。
方案收益:
可以做到行为分析在3000亿活跃数据的场景下,平均延迟小于10s,P95延迟在20s左右。 用户画像在千亿数据下实现10个标签秒级人群预估和圈选,100个标签10秒级。 日志存储与分析 现状分析:日志存储与分析场景特点就是数据写入吞吐量大,还要实时可见;数据量大,还要成本低;交互式查询速度快,且支持半结构化、非结构化文本检索、按时间排序。
技术优化:在写入优化方面,采用了客户端实时小批量写入,服务端内存攒批写入和时序 compaction 机制;从存储成本入手,设计了列式存储、倒排索引、高压缩比算法以及存算分离、冷热分层;同时,检索优化则采用了倒排索引快速精准定位到匹配的行,时间排序的时序存储模型和动态剪枝的 TopN 算法。
方案收益:相比传统的方案,SelectDB Cloud 能够达到4.2倍写入性能提升,仅占用1/5的磁盘空间,便达到2.3倍的查询性能提升。
携手共赴星辰大海, “SelectDB Partners” 合作计划发布
在云原生时代势不可挡的今天,SelectDB 希望能够像“星星之火”一样,通过和生态内的伙伴携手并进,落地覆盖至更多企业、行业的业务场景,为企业的数字化转型之路提供“可以燎原”的势能。基于此,SelectDB 在发布会上正式发布了 “SelectDB Partners" 合作伙伴计划,对解决方案合作伙伴、服务合作伙伴和销售合作伙伴这三大类伙伴进行招募,以此共谋创新成长之路。
秉持着“开放共赢”的合作理念,SelectDB 也为合作伙伴制定了一系列针对技术合作、市场合作、销售合作的相关权益,希望通过专业的培训与支持、技术方案共创、品牌活动与产品推广支持、商机共享等覆盖市场开拓多链路的助力,帮助每一位 SelectDB Partner 更好地发展。
虽然仅成立一年,但 SelectDB 在迅速发展之下,已经得到领域内各行各业优秀伙伴的认可,并且与他们开启了战略合作,目前,SelectDB 已陆续开始与合作伙伴们共建数据中台、BI应用等平台级解决方案,并开展了互联网、金融、政府、制造等行业级的解决方案构建。
时至今日,SelectDB 也已经为很多的客户提供了产品和服务。在互联网、物流、金融、汽车、交通、零售、制造、政府等领域和行业,帮助用户落地数仓平台,解决业务分析、运营管理、用户洞察、智能决策等诸多方面的需求。例如趣头条、海程邦达、航旅纵横、安踏、BOSS直聘、360数科等诸多知名企业都已经开启了 SelectDB 云数仓应用之旅。
最后,SelectDB 创始人兼 CEO 连林江表示:“社会大规模拥抱数字化,业务的在线化、实时化、场景化则是成功转型的关键所在,这一过程中数据的海量规模、实时分析和敏捷开发则对社会组织带来了持续的挑战。创新产品是为了价值赋能!SelectDB将坚持开源+云的产品战略,以及开放共赢的合作服务理念,践行“技术普惠”和“价值赋能”。我们愿与全球用户和合作伙伴一起迎接挑战,秉承谦逊之心,持续保持创新,共同勾勒云数仓的未来!为数而生,因云而新,未来一路同行!”