场景

湖仓一体

与传统数据仓库不同,湖仓一体实现了存储与计算的完全分离。湖仓一体将将数据湖和数据仓库的优势相结合,存储层以 HDFS 或云对象存储为基础,通过开放的数据格式存储数据,计算层统一了实时、历史数据、批处理和流处理,所有引擎共享相同的数据,打造了 Shared Data 的架构,与传统 Shared Disk 架构截然不同。

SQL 分析引擎是湖仓架构中最关键的组件之一,当前湖仓解决方案中,面临着以下挑战:

lakehouse-icon-1

查询性能瓶颈

当前数据湖的分析引擎,无法满足低成本的同时提供低延迟的查询需求,亟需高性能计算引擎(如基于内存优化、向量化执行)加速数据处理。

数据格式多样性

许多湖仓分析引擎对开放表格式和 Catalog 支持不足,而多样化的数据格式在优化和性能需求方面各有差异,从而降低了数据管理的效率。

湖仓集成能力弱

大部分湖仓引擎无法用作数据仓库,而大量数据仓库无法访问湖仓,导致数据仓库与数据湖之间的集成困难,进而引发数据冗余和数据孤岛等问题。

为什么选择 SelectDB

极速

基于 MPP 执行框架和 Pipeline 数据处理模型,查询引擎在多机多核的分布式环境下能够快速处理海量数据。凭借高效的元数据和数据缓存机制,SelectDB 分析引擎性能超出 Trino 2-3 倍,实现极速性能。

开放

通过可扩展的连接器框架,无缝集成湖仓生态系统中的主流开放数据格式和 Catalog,同时广泛支持多种数据源,如 Hive、Iceberg、Hudi、Paimon 以及支持 JDBC 协议的数据库系统。

统一

凭借内置存储,SelectDB 既可以作为分析型数据库使用、也可以作为湖仓分析引擎使用。融合统一的架构,降低架构复杂性的同时,实现数据一致性和管理一致性。

在引入 Doris 替换 Presto 后,我们内部的可视化数据自助分析工具丰景台场景广泛应用,目前报表业务已 100% 切换到 Doris 集群中,日均查询量 100W+。并实现 P95 性能提升近 3 倍,硬件资源节省达 48% 显著收益。

logo

我们基于 Apache Doris 和 Iceberg 构建了湖仓融合架构,实现架构的大幅简化及统一,目前,Apache Doris 集群超 20 个 ,总节点数百个,已对接内部 200+ 项目,日均查询量超过 1500 万,总存储数据量 PB 级别。

logo

目前我们基于 Apache Doris 整体集群规模超 50 套,部署节点超 3000 个,存储容量超 15PB。在湖仓融合分析方面,借助 Doris 优化后,相关类型查询 IO 请求量从几百 GB 降至几百 MB,有效缓解了网络带宽压力,并提升了整体查询性能。

logo
SelectDB 湖仓一体解决方案
分析负载
arrow
长时间运行 ETL
arrow
机器学习
arrow
轻量级 ETL
arrow
交互式分析
开放数据湖仓
湖仓计算
批处理引擎
(Spark, ...)
实时分析引擎
(SelectDB)
湖仓存储
数据湖
(Iceberg, Hudi, Paimon ... )
Catalog
(Polaris, Unity, Gravitino, ...)
数据源
arrow
Tables
arrow
Streams
arrow
Files
arrow
...
实时分析引擎
SelectDB 作为实时分析引擎,主要负责支持交互式分析和轻量级 ETL 计算工作负载。
批处理引擎
Spark 等批处理引擎主要负责支持长时间运行 ETL 和机器学习计算工作负载。
湖仓存储
基于数据湖,使用开放表格式和 Catalog 构建开放湖仓存储。
更多资源
文档

关于湖仓一体的所有技术文档,包括使用指南、参考手册以及技术深入解析。

用户案例

探索学习各行业用户在湖仓一体的实际应用和最佳实践。

视频

通过 Demo 教程,学习如何基于 SelectDB / Apache Doris 构建湖仓一体架构

community icon
社区

加入社区湖仓一体专项交流群,参与实时讨论。或在技术论坛湖仓一体板块提问,获取技术经验和支持。

加入社群
加入论坛