现代化实时数仓的四大应用场景及案例分享

实时数据仓库分享
2024/8/09
SelectDB

在数字化转型的浪潮中,数据已成为企业决策与业务优化的核心驱动力。为满足企业对数据实时性、准确性和全面性的需求,现代化实时数仓(Real-Time Data Warehouse, RTDW)应运而生。它不仅克服了传统数仓在数据处理速度和灵活性上的局限,还通过一系列先进的技术手段,为企业提供了前所未有的数据洞察能力。

在实际的应用中现代化实时数仓有以下四个主要的应用场景:

实时报表:实时报表是现代化企业不可或缺的一部分,它允许管理层和业务部门在第一时间获取最新的业务数据,从而迅速响应市场变化,调整业务策略。包括广告营销报表,为广告主提供广告曝光、点击、消费等报表和分析;保险客户分析,为保险代理人提供客户计划和转换分析报表;物流实时看板,为物流站点提供压力、效率、客诉等实时分析;交易明细查询,为用户提供订单、账单、物流单等明细查询服务。通过实时数仓,企业可以实现对销售数据、库存情况、用户活跃度等关键指标的实时监控和报表生成,确保决策的及时性和准确性。

湖仓一体:大数据时代的到来,企业数据中非结构化数据的比例日益增加。这些数据包括社交媒体帖子、电子邮件、视频文件等,数量庞大且格式多样,蕴含着丰富的业务信息和市场洞察。然而,由于非结构化数据的复杂性和多样性,传统的数据仓库往往难以有效处理,同时数据孤岛的存在还进一步加大了数据治理的难度,现代化实时数仓通过集成数据湖技术,实现了对非结构化数据的存储、查询和分析能力,为企业提供了更全面的数据视图。

日志存储与分析:日志对于保障系统、业务稳定性至关重要,常用于故障排查、监控告警等,企业需要构建统一的日志存储与分析平台。常见的日志种类有服务器日志、网络设备日志、物联网日志、业务日志等。日志数据是企业运维和故障排查的重要依据。通过收集和分析系统日志、应用日志、安全日志等多种类型的数据,企业可以快速定位问题根源、评估系统性能并优化用户体验。现代化实时数仓提供了强大的日志存储和查询能力,帮助企业实现日志数据的实时处理和高效分析。

用户画像与行为分析:CDP(用户数据管理平台)是企业用来收集并统一管理用户在多个渠道上的完整数据的工具。通过分析收集到的数据,CDP可以形成用户360度全景画像,洞察用户的行为、兴趣、需求等信息,更好地把握用户的生命周期,为企业提供精细化的营销和服务。同时,通过用户行为分析,将用户数据与业务场景结合,实现个性化、精细化的运营,以更加灵活的方式,触达不同场景下的用户,提升用户的体验。

现代化实时数仓的案例分享

Apache Doris 在极越汽车数字化运营和营销方向的解决方案:

导读:极越是高端智能汽车机器人品牌,基于领先的百度 AI 能力和吉利 SEA 浩瀚架构生态赋能,致力于打造智能化领先的汽车机器人,以高阶智驾、智舱产品和创新数字化服务,为用户创造标杆级智能科技出行体验。随着全球汽车行业向电动化、智能化加速转型,对车端数据实时精准响应的需求也越来越高,经过对比选型,极越汽车选择 Apache Doris 作为实时数仓底座来升级 BI 分析平台和用户画像系统。截至目前,基于 Apache Doris 开发的数据智能服务体系 2.0 已经部署在多套生产集群,其优秀的读写性能、低成本数据接入流程和丰富的大数据生态支持,既提升了车端、云端的数据处理效率,又简化实时数据流架构,还能一定程度上节约计算和存储成本、简化运维。

目标与愿景

1.支持多种数据分析场景:例如对于 APP 与小程序、门店与工厂以及车端等各种来源的复杂数据都能提供高效的数据支持,为业务决策赋能;

2.实时数据分析响应:在数据实时写入和更新的同时,支持快速及时的查询响应;

3.运维难度低:生态独立,不依赖其他技术栈,运维简单且利于上手。

当前使用的实时数仓遇到的问题与挑战:

在引入 Apache Doris 之前,过去的实时数仓基于 Kafka 流式数据构建。由于 Kafka 对海量数据的存储能力比较有限,限制了长时间历史数据的查询和回溯。另外加工好的数据需要存放在不同的查询引擎,导致数据加工的成本比较高,且难以支持复杂的即席查询。

基于 Apache Doris 构建的 SelectDB 实时数仓解决方案:

实时数仓建设与实践优化

基于 Apache Doris 打造了统一的离线/实时数仓体系,实时响应业务需求。下图是引入 Apache Doris 后的实时数仓架构图。

酒.PNG

BI 分析平台实践及优化

面对双向复杂的数据架构环境,首要挑战是数据实时响应的压力,先需要确保 BI 分析平台能够迅速、准确地应对各种车端及用户端数据变化,这也促使 SelectDB 开始了 BI 分析平台 2.0 的改造计划。在整个 BI 分析平台的改造过程中,SelectDB 充分将业务需求与 Apache Doris 的各项优势相结合:

  • 查询性能突出:Apache Doris 能支持多种复杂的业务场景,特别是在需要快速查询响应的场景中表现突出。例如在车端信号数据的实时响应中,能够实时接收和处理来自车辆的各种信号数据,为业务决策提供实时、准确的数据支持。
  • 实时响应:在某些场景中对数据的时效性有着极其敏感的需求,以预知车辆抛锚情况为例,能够更快分析车辆运行数据、及时发现潜在的故障隐患、触发相应的预警机制,并规划相应的救援安排。
  • 技术栈统一:原本实时和离线数据分别由多个不同数据库进行存储,在升级后通过 Apache Doris 实现离线数据和实时数据的统一处理,实现技术栈的统一。
  • 成本节约:减少部署多个系统带来的硬件成本,且自身的易用性和可维护性也降低了运维成本。

酒酒.PNG

用户画像实践及优化

在用户画像的构建过程中,我们通常会对数据进行离散化处理,转化为 KV 格式后,利用 Bitmap 高效存储,确保用户画像的精准性和实时性。用户画像业务架构图如下:

酒酒酒.png

根据图中所示,数据服务和数据分析两个模块充分利用了 Doris 强大的多维分析能力。数据分析师或者业务运营同学通过 CDP 平台在用户属性、行为数据、业务数据等基础上建立人群圈选的规则之后,规则可直接转换为 Doris SQL 进行计算,计算后的圈选结果(数据集)通过 Bitmap 的方式存入到 Doris 并供下游服务。

方案收益总结

截至目前,基于 Apache Doris 的数据智能服务体系已经部署了近十套生产集群,节点规模已经接近百台,存储的数据总量达数百 T,覆盖了实时数仓、BI 多维分析、用户画像、车云中心(Serving)、日常分析等多个业务场景。从业务侧来看,Apache Doris 为极越汽车在提升客户用车体验、实时监测车辆信息、保障安全驾驶等方面提供了更全面、更准确的业务洞察和决策支持,有力推进了极越汽车创新数字化服务的步伐。从技术侧看,Doris 优秀的读写性能、低成本数据接入流程和丰富的大数据生态支持,既提升了车端、云端数据处理效率,又简化实时数据流架构,还能一定程度上节约计算和存储成本、简化运维。

更多案例请访问:用户案例

实时数仓数据分析即席查询湖仓一体