新零售:Apache Doris 助力数据计算分析时效提升

实时数据仓库分享
2024/12/27
SelectDB

新零售,英文是New Retailing,即企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。

新零售:Apache Doris 助力数据计算分析时效提升.jpg

近年来,新零售行业蓬勃发展,各大电商平台、传统零售商纷纷布局新零售,通过线上线下融合,打造无缝连接的购物体验。例如,阿里巴巴的盒马鲜生、京东的7FRESH等,通过大数据分析消费者行为,优化库存管理,提升供应链效率,实现精准营销。

数据分析在新零售的应用价值

零售新模式的开发升级离不开大数据分析,通过数据收集分析可以清楚的了解客户群体的购买习惯以及偏好等,从而可以更好的做好客户体验,跟紧市场趋势,快速的满足市场的新需求,另外也可以帮助运营决策者能够更好的做好选品以及市场活动。数据分析在新零售的应用价值有以下几点:

提升市场定位的准确度

通过对海量数据的获取与分析,零售企业可以对市场布局、市场需求情况、竞争对手的发展进度等进行把握。根据数据分析结果,企业可以不断完善自身的产品经营方式,突出品牌的差异化特征,实现精准的市场定位。

需求预测与价格调整

零售企业需要在获取海量数据的基础上,运用数学模型,对消费者的内在需求进行挖掘。同时,还要对各个细分市场的价格变动与产品销售情况进行科学合理的推测。当市场出现供需不平衡的问题时,企业可对产品价格进行调整,缓解市场供需之间的矛盾。

产品优化与服务升级

通过对数据中包含的用户消费特征、消费习惯、对产品的期待等进行提取,企业可以在此基础上实现产品优化。同时,不断完善自身的服务体系,升级消费者的购物体验,进而提高企业的利润所得。

然而,新零售的快速发展也带来了数据量的爆炸式增长。从消费者行为数据、商品销售数据到供应链数据,海量数据需要高效处理和分析,以支持企业的快速决策和运营优化。

新零售在数据分析上所遇到的挑战

在零售新经济的背景下,数据计算分析面临以下主要问题:

1、数据量大且复杂:新零售企业每天产生的数据量巨大,且数据类型多样,包括结构化数据、半结构化数据和非结构化数据。如何高效存储、处理和分析这些数据,成为企业面临的一大挑战。

2、实时性要求高:在竞争激烈的市场环境中,企业需要快速响应市场变化,进行实时数据分析,以支持快速决策。然而,传统数据仓库和分析工具在实时性方面存在瓶颈,难以满足企业的需求。

3、查询性能瓶颈:随着数据量的增加,复杂查询的性能成为制约数据分析时效的关键因素。传统数据库在大数据量下的查询性能往往不尽如人意,导致分析结果延迟,影响决策效率。

4、成本高昂:大数据处理和分析需要高性能的硬件和复杂的软件架构,导致成本高昂。对于中小企业而言,这是一笔不小的负担。

新零售数据分析解决方案案例分析

针对于以上的挑战又该如何解决呢,来看看武汉物易云通是如何解决的吧!

武汉物易云通网络科技有限公司成立于 2015 年 6 月,总部位于湖北省武汉市东湖高新区。作为国内产业互联网的探索先行者,公司致力于将产业互联网思维与新一代信息技术深化应用于煤炭、建筑、再生资源三大业务领域,以标准化、场景化、数字化的供应链综合服务解决能力,开创互联网化的“供应链技术+物流服务+金融场景”的产融协同新生态。

业务痛点:

随着公司业务的快速发展,对数据计算分析的时效要求也越来越高。之前的产品已经无法应对庞大的数据量。

解决方案分享:

为解决这一问题,数据团队通过调研对比,在 2021 年引入了 Apache Doris 作为实时数据仓库,找到了飞轮科技成功的解决了难题。

数仓架构演进

公司创业之初,是使用 MySQL 作为 BI 仓库,每天增量卸数后导入,通过定时调度存储过程进行计算。该方案能快速满足公司的跨库数据关联计算的需求,但是随着业务发展,数据和任务不断增多,MySQL 已难以支持,另外该方案局限性比较大,如果业务表存在物理删除或者没有数据更新时间的情况下,则会导致数据不准。

为了解决上述问题,武汉物易云通搭建了一套 CDH 作为数据仓库。通过 Canal 订阅 MySQL 的 Binlog 到 Kafka,进行编写消费程序,将数据写入 Hbase,然后增量合并到 Hive 中,通过 Oozie 调度计算脚本。

然而离线 T+1 的数据只能满足一部分的业务需求,因此需要一套能快速查询实时数据的数据仓库,同时可以支持离线需求和实时需求,经过许多产品的调研对比,证明 Apache Doris 可以很好地实现武汉物易云通的业务需求。

12271.PNG

Doris 数仓架构通过 Flink CDC 实时接入生产库数据到 Doris,支持实时 OLAP,然后通过海豚调度器定时执行 SQL 脚本,替代 Hive 的离线数据计算任务。

新架构的收益

**降低资源成本:**先前武汉物易云通的集群配置为 5 台阿里云 ESC,16 核 64G。在相同集群配置下,1000 个表的每日增量数据合并任务,用 Hive 需要 3-5 小时,用 Spark需要 2-3 小时,然而同样的需求 Drois 运用 Unique Key 模型完成只需要 10 分钟,大大提前了后续计算任务的开始时间。使用 Doris 后,报表数据的更新时间大大提前,临时的数据查询需求响应时长大大缩短,至少节约了每年几万的大数据集群扩容成本,同时获得了各部门的认可。

**提升开发效率:**在使用 Doris 作为数仓后,通过武汉物易云通的数据易平台配置 Flink CDC 任务快速接入 MySQL 库表的全量+增量数据,同时利用 Doris 的 Online Schema Change 特性,实时同步 Binlog 里的 DDL 表结构变更到 Doris,数据接入数仓零开发成本。另外因为 Doris 支持 MySQL 协议直接对接数据可视化应用,不需要再把结果数据从 Hive 推到 MySQL 里提供数据服务,节约了数据库资源,减少了开发步骤。

**体现数据价值:**Doris 有审计日志,武汉物易云通可以通过日志,分析出每个表每天的查询使用情况,以便武汉物易云通评估跟进数据价值、下线废弃报表及任务。另外还可以预警资源消耗多、查询慢的查询语句,帮助用户进行语法优化等。

如果您正遇到类似的难题,可以点击右下角的电话咨询或者在线咨询联系我们,(飞轮科技)是一家基于开源分析型数据库 Apache Doris 的商业化公司,由 Apache Doris 原创团队于2022年1月创建,公司总部位于北京,面向全球提供实时数据仓库的产品与解决方案,满足各类场景的实时数据分析需求。飞轮科技的创始团队来自于原百度智能云初创人员和 Apache Doris 项目核心成员。

12272.jpg