数据仓库是一种用于存储和管理企业数据的解决方案。它是一种容器,可以存储大量结构化数据,借助于ETL(抽取、转换、加载)工具,将数据从多个来源抽取到数据仓库中,并对这些数据进行转换和清洗处理,以便于企业用户使用。
数据仓库通常包括一个或多个数据集合(Data Mart),数据集合包含特定的数据类型、主题或部门的数据。此外,数据仓库提供有关数据的元数据,元数据描述了数据的结构、关系和用途,帮助企业用户更好地了解和使用数据。数据仓库常用于支持报告、查询和分析等决策支持应用程序。
一、数据仓库的组成
数据库
数据库是数据仓库的核心存储组件,用于存储经过抽取、转换和加载(ETL)处理后的数据。这些数据按照特定的组织结构和模式进行存储,以便进行有效的查询和分析。
元数据
元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据。包括:
数据源信息;数据转换的描述;
数据仓库内对象和数据结构的定义;
数据清理和数据更新时用的规则;
源数据到目的数据的映射;
用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;
元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
数据集市
数据集市是数据仓库的一种特殊形式,它是针对特定部门或业务线的小型数据仓库。数据集市通常包含特定主题的数据,以满足特定用户群体的需求。具有以下功能:
- 提供针对特定业务场景的数据分析和报告。
- 减少数据访问的复杂性和延迟。
- 提高数据分析和决策的效率。
数据仓库管理
安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。
信息发布系统
信息发布系统通常与数据仓库的前端工具相结合,用于将数据分析结果以报告、仪表板等形式呈现给用户。它支持数据的可视化展示和交互式分析。具有以下功能:
- 提供直观、易用的用户界面。
- 支持定制化的报告和仪表板设计。
- 实现数据的实时更新和动态展示。
访问工具(API 接口)
访问工具是用户与数据仓库交互的接口,包括查询工具、报表工具、数据挖掘工具等。这些工具使用户能够方便地访问、分析和利用数据仓库中的数据。
二、数据仓库是如何分层的?
数据仓库的分层是为了更好地组织和管理数据,提高数据的质量和可用性。常见的数据仓库分层包括STG(数据暂存区)、ODS(操作数据存储)、DW(数据仓库)和DM(数据集市)。
STG(数据暂存区)
STG是数据仓库中的第一层,也是数据的初始接收和暂存区。在STG中,数据以原始格式进行存储,包括来自不同数据源的数据。这一层的主要任务是接收数据并进行初步的清洗和整合,以保证数据的质量和一致性。通过STG层,数据仓库可以灵活地处理来自多个数据源的数据,为后续的数据处理和分析打下基础。
ODS(操作数据存储)
ODS是数据仓库中的第二层,用于存储经过初步处理的数据。在ODS中,数据被存储为操作性的数据,以支持实时或近实时的业务操作和查询。ODS层可以满足对实时性要求较高的业务需求,并提供一致和可靠的数据支持。通过ODS层,企业可以快速响应市场变化和客户需求,提高业务决策的及时性和准确性。
DW(数据仓库)
DW是数据仓库中的核心层,也是最重要的一层。在DW中,数据被组织成维度表和事实表的结构,以支持复杂的分析和决策需求。DW层通过维度建模和ETL过程,将数据进行清洗、整合和聚合,为企业提供可靠、一致和完整的数据。通过DW层,企业可以深入挖掘数据价值,发现潜在的商业机会和风险因素,为企业的战略决策提供有力支持。
DM(数据集市)
DM是数据仓库中的最上层,也是最接近业务用户的一层。在DM中,数据被进一步组织和定制,以适应特定的业务需求和分析场景。DM层可以根据不同部门或用户的需求,构建专门的数据集市,提供定制化的数据视图和报表,方便用户进行数据分析和决策。通过DM层,企业可以将复杂的数据分析过程简化为直观、易用的可视化界面,提高用户的使用体验和满意度。
三、数据仓库的应用场景及产品介绍
分析型的数据仓库主要应用场景有四个:实时报表、湖仓一体、日志存储与分析以及用户画像与行为分析,针对于这四个主要的应用场景,SelectDB 推出了 基于 Apache Doris 打造的新一代多云原生实时数据仓库,聚焦于满足企业级大数据实时分析需求,为客户提供极致性价比、简单易用的数据分析服务。
SelectDB 推出的面向实时分析的现代化分析型数据仓库特性:
能够秒级的实时数据写入,以及从数据库和数据流中流式数据同步;
既支持结构化数据分析,也支持半结构化数据分析;
弹性架构实现高效的资源管理;
基于开源并兼容 Apache Doris,实现与 Doris 上下游生态的对接。
SelectDB 团队实力介绍:
飞轮科技(SelectDB)是 Apache Doris 的商业化公司,2022 年 1 月由 Apache Doris 创始团队和百度智能云创始团队创立。飞轮科技是 Apache Doris 的重要推动力量,拥有 7 名 PMC 成员、20 名 Committer,主导发布了Apache Doris 一系列核心版本。公司成立一年多,累计获得来自 IDG 资本、红杉中国和襄禾资本等投资机构近 10 亿元人民币融资,并在2022年10月登顶全球分析型数据库测评榜单 ClickBench,在多种场景下,性能全球排名第一。