SelectDB 让数据分析简单快速
SelectDB (北京飞轮数据科技有限公司) 是一家基于 Apache Doris 的新一代云原生实时数仓厂商。2022年1月,SelectDB 正式成立,总部位于北京,在美国硅谷、新加坡、香港、上海、成都、西安等设有分公司。“开源技术创新”和“云端数仓服务”双轮驱动促使 SelectDB 飞速成长,仅用一年时间就晋升为行业佼佼者。
SelectDB Cloud 开箱即用实时数仓
SelectDB 核心产品 —— SelectDB Cloud,基于 Apache Doris 内核打造的云原生实时数仓,采用云原生存算分离架构、全托管 SaaS 交付,目前国内已经支持阿里云、华为云、腾讯云和亚马逊云科技等国内外主要云厂商。
SelectDB Cloud 产品基础架构
SelectDB Cloud 关键概念
SelectDB Cloud 云原生数仓包含三个关键概念:组织、仓库和集群,它们作为产品设计的基石,构建起独立隔离、弹性可扩展的服务,帮助企业快速、安全地构建大数据分析业务的底座。
-
组织:一个组织即代表一个企业或一个相对独立的团体,用户注册 SelectDB Cloud 后作为一个组织来使用服务。组织是 SelectDB Cloud 中的计费结算对象,不同组织间的计费、资源、数据是相互隔离的。
-
仓库:仓库是一个逻辑概念,其中包括计算和存储资源。每个组织可创建多个仓库,用于满足不同业务的数据分析需求,如订单、广告、物流等业务。同样的,不同仓库间的资源、数据也相互隔离,可用于满足组织内部的安全需求。
-
集群:集群为仓库内的计算资源,包含一个或多个计算节点,可以进行弹性扩缩容。一个仓库可以包含多个集群,它们共享底层的数据。不同集群可以满足不同的工作负载,如统计报表、交互式分析等,多个集群之间的工作负载互不干扰。
全新的云原生架构
持续创新的云技术能够更好地满足企业快速变化、大规模、高性价比的分析需求,全面释放企业的大数据生产力。基于此,SelectDB 面向云全新设计,充分利用云近乎无限、随取随用的资源池,打造了基于存算分离架构的新一代云原生实时数仓 SelectDB Cloud,为全球客户提供极致的数据分析服务。同时,SelectDB Cloud 屏蔽了底层基础设施的复杂性和差异,实现了灵活、低使用门槛的 SaaS 化服务,为客户带来国内首家多云一致的数据分析体验。
从整体看,SelectDB Cloud 的核心架构分为三层:
-
数据存储层:SelectDB Cloud 底层采用廉价、高可用、近乎无限扩展的对象存储作为数据存储层,并基于对象存储进行深度优化设计,可帮助客户倍数级降低数据分析的成本,轻松支持 PB 级的数据分析需求。对象存储在不同云环境下统一的标准性和成熟度,也强化了 SelectDB Cloud 多云一致的使用体验。
-
数据计算层:计算层由若干个计算集群组成,多个集群之间工作负载隔离,每个集群包含一个或多个计算节点(Compute Node)。计算层与存储层解耦,支持灵活的弹性伸缩和平滑无感的升级。计算节点利用本地硬盘构建了热数据 Cache,并通过领先的查询优化器、丰富的索引技术等避免非必要的数据读取,显著优化了对象存储响应延迟较高的不足,为客户带来极致的数据分析性能。
-
云服务层:提供功能丰富、简单易用的 SaaS 化云产品,无需管理底层设施,一键通过标准化的 SQL 快速开启数据分析之旅。面向企业级客户,提供开放丰富的 Cloud API、全链路加持的安全控制等特性。
基于全新的云原生架构,SelectDB Cloud 实现了新一代全球领先的云原生实时数仓,助力客户通过数据分析驱动业务快速发展。
SelectDB Cloud -四大核心优势
SelectDB Cloud 具有四大核心优势,分别是极速、云原生、开放和安全。
极速
SelectDB Cloud 具备世界领先的强大性能。2022年10月,SelectDB Cloud 内核在全球分析型数据库排行榜 ClickBench 上取得优异的成绩,多项指标世界第一。
SelectDB 在未进行任何调优的情况下,查询性能在所有同类产品中位列第一,Hot Run 和 Cold Run 性能分别领先第二位 35% 和 25%;
在汇集了多个不同机型的总榜中,SelectDB 在所有同类型产品中依旧取得了 Cold Run 查询性能第一,Hot Run 查询性能第二的优异成绩。
SelectDB Cloud 在两个最典型的数据分析场景中,即单表聚合和多表关联场景,展现出了遥遥领先的优势。
单表聚合场景下,SelectDB Cloud 是 ClickHouse 的3.4倍,是 Presto 的91倍,是业界标杆产品 Snowflake 的6倍(使用 SSB-flat 测试)。
在多表关联场景下,SelectDB Cloud 的性能可达到 Redshift 的1.5倍,ClickHouse 的49倍,同时是业界标杆产品Snowflake 的2.5倍(使用 TPC-H sf100 测试)。
云原生
传统数据仓库技术架构老旧、历史包袱重,同时需要依赖昂贵的硬件设施和冗余的副本存储,具有成本高、资源利用率低、运维使用复杂等一系列不可避免的问题,数据分析性能也并不理想。
云托管数仓主要减轻了运维托管方面的负担,但由于并没有真正解决架构层面的问题,成本和性能等问题仍存在;少量云托管数仓虽然实现了存算分离架构,但对象存储响应延迟大,性能表现反而劣化。
因此,我们需要新一代云原生架构从根本上打破这些困境。
SelectDB Cloud 整体采用存算分离的云原生架构,基于云基础设施深度设计,充分利用其软硬件创新、资源弹性、可用可靠的特性,能够满足企业高性价比、强易用性、高可用的核心需求。
云原生架构的 SelectDB Cloud 具有以下的优势:
更高的性价比
-
强大灵活的弹性伸缩能力:SelectDB Cloud 基于存算分离架构研发,打破传统架构下,计算和存储资源绑定导致的无法灵活扩缩容、资源浪费的局面。通过将计算和资源解耦,SelectDB Cloud 为企业提供非常灵活的弹性伸缩的能力:企业可以根据业务增长随时扩容,省去提前购买资源导致浪费的困境;也可以根据业务高低峰,弹性增减计算节点,在无需求时通过 Auto Suspend 特性停止全部计算节点,更合理控制成本。SelectDB Cloud 存储容量高达 PB 级,单集群可拓展至 100+节点。
-
兼顾成本与性能的存储技术:在存储方面,SelectDB Cloud 将对象存储与创新技术融合,基于廉价的存储介质、按需付费的模式、更低的存储副本,能够令企业的存储成本相较于云盘降低高达 90%+,同时性能表现依旧突出。
综合下来,云原生的 SelectDB Cloud 可以使得成本低至自有部署成本的1/2~1/5。SelectBD Cloud 极速的优越特性伴随着其云原生架构带来的成本降低,能够令企业长久以来所追求的极致性价比得以实现。
更强的易用性
SelectDB Cloud 基于云原生架构为企业提供全托管的 SaaS 化服务,简单易用,极大降低了运维和使用的复杂度。
-
极简运维体验:在运维方面,SelectDB Cloud 实现了从部署到管理的全流程托管,客户可以一键快速开通服务,无需消耗大量时间自行搭建服务;支持分钟级别的平滑扩容和升级,不影响在线服务的稳定性;支持分布式集群自管理,如节点故障自愈、数据自动打散(Auto Buckets)、分桶自动均衡等,大幅降低集群日常运维压力。
-
超低开发门槛:在使用方面,SelectDB Cloud 提供出色的内置 SQL 编辑器和兼容 MySQL 协议的可视化工具 ,帮助企业快速开展数据分析业务;SelectDB Cloud 提供了业界领先的查询优化器,能够智能高效的生成查询规划最优解,避免耗时耗力的进行人工调优;同时,SelectDB Cloud 支持高效的半结构化数据存储和检索分析,无需抽取转换即可加载半结构化数据,并支持倒排索引等丰富索引技术以加速分析效率,大幅简化半结构化数据的分析处理过程。
更高的可用性
SelectDB Cloud 充分借助云原生的能力,通过在存储、计算和云服务层的充分设计,实现了产品整体的高可用性。
在存储方面,SelectDB Cloud 依赖云原生架构下的对象存储,能实现高达 99.995% 的可用性;在计算层面,由于计算节点为无状态的服务,互为高可用备份,在压力可控的情况下,大多数计算节点故障仍可保持集群正常服务;如果整个可用区发生故障,客户可通过在其他可用区新建集群,快速实现业务恢复;此外,SelectDB Cloud 涉及的分布式元数据存储 Metadata 也支持单点故障自愈、跨可用区容灾、元数据实时备份,用于保障系统全链路的可用性。
安全
在云的环境中,保障企业数据资产的安全是一门重要的课题。SelectDB Cloud 通过在组织隔离、身份验证、访问控制、网络安全、数据保护等方面的层层加码,为产品赋予了安全的企业级特性。
-
在组织隔离方面,由于 SelectDB Cloud 对不同组织间的存储和计算实施了严格的隔离保障,企业无需担心因为软件缺陷、恶意攻击而带来的数据风险。
-
在身份验证方面,支持多因子认证 MFA、登录保护、基于TOTP的动态口令等功能,防止未经授权的账户访问。
-
在访问控制方面,支持基于角色的访问控制策略(RBAC),同时提供了库表、行、列等不同粒度的权限控制能力,方便管理员能够精确、灵活地设置权限。
-
在网络安全方面,通过私网链接、TLS 传输加密、安全组、可选独立 VPC 等技术,确保网络连接的安全。
-
在数据保护方面,企业存储在 SelectDB Cloud 中的数据是跨可用区存储的,并支持数据存储加密;对于客户访问云产品网站涉及的隐私信息,采用加盐哈希方式进行处理。从而确保企业相关数据的安全可靠。
SelectDB Cloud 也提供业界领先的安全可视化机制,生效中的安全策略对客户实时可见,让“数据安全”清晰可信。此外,SelectDB 凭借其产品优异的安全性,通过了中国信息通信研究院第十五批“可信大数据”测评,获得了来自权威机构的认可。
开放
基于 Apache Doris 开发的 SelectDB Cloud 实现了多方面的迭代和优化,但也同样传承了源自开源社区的开放、中立基因。
-
开源方面,SelectDB Cloud 与开源 Doris 高度兼容,用户可以在 SelectDB 和开源 Doris 之间自由、灵活地迁移;
-
在生态方面,SelectDB Cloud高度兼容 MySQL 协议,用户可以使用 MySQL Client、JDBC 和 DBeaver 来连接使用 SelectDB Cloud 易于上手,兼容性更强;同时,SelectDB Cloud 支持大数据生态的诸多数据源、数据格式,并且能够对接丰富的大数据生态产品,比如 Spark、Kafka、Flink、Hive、Iceberg 等。
-
在云方面,SelectDB Cloud 的产品构建于多云之上,用户可以在国内外主流的公有云平台上获得一致的使用体验,且避免了云锁定的发生。
SelectDB Cloud 四大场景解决方案
SelectDB Cloud 深耕于多种大数据分析场景,其中最核心的四大应用场景如下:高并发实时报表与分析、用户画像与行为分析、日志存储与分析、数据湖分析。
高并发实时报表与分析
数据源:业务数据、应用日志
关键特点:毫秒级延时、上万并发
企业收益:
- 高并发极速响应
针对报表场景能够达到上万并发、毫秒级别响应;针对数据流延时低的诉求,数据可见性最快可以做到10s级别;数据可靠,不丢不重;基于SelectDB Cloud的方案,某用户的广告业务场景,实现了上万QPS的高并发,查询延时99分位200ms以内,每天新增数十亿条记录。
可以用来替代 MySQL、Hbase、类HTAP 等方案
用户画像与行为分析
数据源:用户相关属性、行为数据
关键特点:Dynamic Schema、实时更新、秒级查询
企业收益:
- 极速实时
SelectDB Cloud 可以做到行为分析在3000亿活跃数据的场景下,平均延迟小于10s,P95延迟在20s左右;用户画像在千亿数据下实现10个标签秒级人群预估和圈选,100个标签10秒级。
可以用来替代 ElasticSearch、Spark、ClickHouse 等方案
日志存储和分析
数据源:业务、系统、物联网等日志
关键特点:实时入库、检索分析、半结构化数据
企业收益:
- 高性价比
高性价比相比传统的方案能够达到4.2倍的写入性能提升,2.3倍的查询性能提升;只占用1/5的磁盘空间。
可以用来替代 Elasticsearch、Loki 等方案
数据湖分析
数据源:适用存储在数据湖和外部数据库中的各种数据
关键特点:Multi-Catalog、元数据自动刷新、数据高速缓存
企业收益:
- 湖仓查询加速
依托高性能的分布式执行引擎以及本地文件缓存,结合数据湖开放格式提供的多种索引能力,对湖上数据及文件提供优秀的查询加速能力,相比 Hive、Presto、Spark 等查询引擎实现数倍的性能提升。
- 统一分析网关
利用可扩展的数据源连接框架,接入多类数据源,包括各种主流关系型数据库、数据仓库以及数据湖引擎(例如 Hive、Iceberg、Hudi、Delta Lake、Flink Table Store 等),支持异构数据源之间的联邦数据分析,将 SelectDB Cloud 打造成统一数据分析网关。
- 统一数据集成
支持对数据源进行统一的增量或者全量数据读取,并利用 SelectDB Cloud 其内置的数据处理能力对数据进行加工和展示(ELT),也可以将加工后的数据写回到数据源,或提供给下游系统进行消费。
可以用来替代 Spark、Hive、Presto 、Flink等方案
SelectDB 繁荣的生态
进一步深入产业,SelectDB 与生态上下游中的企业完成共计20+款的产品适配测评,生态链覆盖芯片、服务器、操作系统和云平台。SelectDB 产品的极致性能、兼容性、安全性等获得认可。
SelectDB 积极地拓展生态合作版图,目前已经和十余家领域内各行业优秀伙伴开启了战略合作,陆续推出数据中台、BI 应用等平台级解决方案和互联网、金融、政府、制造等行业级解决方案。