导读 :本文系统阐述了途虎养车在大数据 OLAP 领域的架构演进路径。针对历史架构中多套技术栈并存导致的数据孤岛、多系统接力及运维成本高等痛点,团队以用户标签系统为突破口,推行以 Apache Doris 为核心的统一数据底座建设,逐步实现点查、圈选、BI 报表、即席分析统一承载,实现核心查询场景提速约 20 倍。
本文整理自途虎养车 数据平台开发工程师 王文博 在 Doris Summit 2025 中的演讲。
为什么需要统一 OLAP 数据底座?
途虎养车的核心业务模式是“线上预约 + 线下履约”,用户通过 APP、小程序、官网等线上渠道完成选购、预约和支付,并在线下工场店及合作门店完成安装、保养、美容等服务。目前,平台已服务超过 1.26 亿车主,业务覆盖轮胎、机油保养、汽车美容等多类汽车产品与服务。
随着业务规模持续扩大,平台每天都会产生大量用户行为、订单交易、门店履约、仓储物流和库存变更数据。这些数据来源分散、链路较长,同时对实时性和分析效率要求较高,给 OLAP 平台带来了三方面挑战:
- 全渠道数据打通难。 线上多入口与线下门店系统共同构成完整服务链路,数据分散在不同系统中。平台需要将用户行为、交易和履约数据统一到同一用户视图下,支撑用户画像、精准营销和经营分析。
- 供应链分析实时性要求高。 汽车服务业务涉及大量 SKU、仓库、门店和物流节点,库存变化、履约进度和区域供需情况都需要及时分析,以支撑补货决策、库存预警和履约效率优化。
- 高并发查询与写入压力大。 用户预约、订单支付、库存扣减、营销触达等环节会持续产生高频数据流。在促销活动或业务高峰期,平台既要保障数据及时入仓,也要支撑用户标签、人群圈选、经营看板和即席分析等低延迟查询需求。
因此,途虎养车 OLAP 平台需要同时具备高吞吐写入、低延迟查询、统一数据口径和高并发服务能力,主要支撑精准营销、BI 固定报表、实时数据大屏和 BI 多维分析四类核心场景。
原有 Hive + HBase + MySQL + Trino 架构遇到哪些问题?
途虎养车 OLAP 平台的演进历程,主要经历了四个关键阶段:

在老架构(早期阶段)下,由于业务部门的烟囱式发展,技术栈呈现出不断叠加、分层和碎片化的特征。当时数据分散于多个异构系统中:原始日志在 HDFS、加工表在 Hive、维表在 MySQL、实时数据在 HBase。
从数据加工的全局流程看,一份数据产生后需复制多份,在多条流水线上传递:先进入 Hive 离线加工,一部分结果导入 HBase 供实时查询,另一部分数据又同步回 MySQL,最后还要为 Trino(Presto) 的即席分析做准备。
这种多系统接力模式带来了以下技术瓶颈:
- 技术栈臃肿:团队需同时维护 Hive、HBase、MySQL、Trino 等多个组件,运维成本高。
- 数据一致性难以保障:数据在不同系统中存在多份副本,数据链路长,极易造成数据口径不一致,引发数据信任危机。
- 开发效率低:业务侧提一个既要多维分析又要高并发点查的需求,开发同学需要在多个异构系统间编写数据同步链路,难以快速响应业务。
为什么选择 Apache Doris?
因此,团队开始推动 OLAP 架构向统一数据底座演进,希望用一套更简洁的架构同时承载离线分析、实时写入、高并发查询和多维分析等核心场景。经过调研和验证,团队最终选择 Apache Doris 作为统一 OLAP 引擎,逐步替代原先分散在多套系统中的分析能力。
Apache Doris 能够支撑这一演进,主要基于以下几方面能力:
第一,统一的查询与存储能力 。Doris 采用 MPP 分布式架构和列式存储,能够同时支持大规模明细数据分析和高并发低延迟查询。对于用户圈选、画像查询、经营分析等场景,业务可以直接通过标准 SQL 访问统一数据源,减少在不同系统之间切换和同步的成本。
第二,完善的实时数据接入能力 。Doris 支持 Stream Load、Routine Load、Flink CDC 等多种实时或准实时导入方式,可以将用户行为、订单、库存等数据及时写入 OLAP 平台,满足业务对分钟级甚至秒级数据时效的要求。
第三,较低的迁移和使用成本 。Doris 兼容 MySQL 协议,并支持标准 SQL,原有报表、分析工具和数据开发流程可以较平滑地迁移到新架构中,降低了数据开发、分析人员和业务系统的改造成本。
第四,更简洁的系统架构。 相比多套组件接力的模式,Doris 主要由 FE 和 BE 节点组成,整体架构更清晰。通过统一存储、统一计算和统一 SQL 接口,团队减少了跨系统数据同步链路,也降低了后续运维和问题排查复杂度。
基于这些能力,途虎养车将 Doris 作为新一代 OLAP 统一数据底座,优先在用户标签系统中落地验证,并在验证效果稳定后,进一步扩展到 BI 报表、多维分析和实时数据应用等场景。
用户画像系统如何基于 Doris 重构?
面对复杂的旧系统,团队选择从用户标签系统(用户画像)切入,作为 Doris 的首个落地项目。该场景对数据读写覆盖全面:既需要高并发点查(获取单用户标签),又需支持灵活的多维圈选,且对实时性有一定要求。
原有架构运行时的局限性
在旧架构下,一个完整的人群圈选与画像查询需求,被拆分为三套异构系统的接力,存在明显的性能与开发痛点:
- MySQL 难以支撑海量点查:查询单个用户标签时请求打到 MySQL。当数据量突破亿级后,其在高并发点查下的延迟明显上升,且易因慢 SQL 影响业务库的稳定性。
- HBase 不擅长复杂圈选:进行复杂多维筛选时(例如:筛选出“深圳地区、车龄 > 5 年、购买过轮胎”的车主),HBase 只擅长按 Key 查询,灵活的多维筛选需开发同学编写大量代码模拟,开发效率极低。
- Hive与 Trino 响应时滞长:对圈出的人群进行深入多维探索时,离线分析方案耗时通常在分钟级,无法支持交互式分析。
基于 Doris 的一体化架构设计
新架构的核心演进方向是收拢数据源与计算引擎,用一个 Apache Doris 系统承接原先三套系统的所有场景,在计算层面推行“统一数据源、统一计算引擎、统一 SQL 语言”的一体化策略。

重构具体路径:
- 统一数据导入: 通过 Broker Load 进行离线批数据导入,通过 Stream Load 进行实时数据接入,从入口端解决数据分散问题。
- 针对不同查询场景配置差异化表模型:
- 画像点查场景:采用 Duplicate 明细模型,利用前缀索引实现毫秒级响应。
- 人群圈选场景:采用 Aggregate 聚合模型,对常用维度进行预聚合,查询速度较老架构提升数十倍。
- 统一对外服务接口: 顶层构建统一数据应用服务,无论是画像点查、人群圈选还是复杂即席分析,后端统一走标准 SQL 路由至 Doris 响应,架构大幅简化。
重构收益
- 性能优化:核心人群圈选查询由原先超过 60 秒缩短至 3 秒以内;单用户画像点查延迟控制在 10 毫秒左右;数据更新由 T+1 升级为分钟级实时处理。
- 运维降本:减少了异构组件间的数据传输和版本同步链条,降低了分布式集群的整体运维复杂度。
- 业务价值:数据平台由成本中心转变为业务增长引擎,营销转化率提升约 15%,显著提升整体 ROI。

以上指标来自生产环境核心查询场景统计,具体收益会随数据规模、查询复杂度和集群配置变化。
BI 多维分析如何从 Trino 迁移到 Doris?
在标签系统成功落地后,团队将该架构优势扩展至更大规模的 BI 多维分析场景,逐步将原有的 HDFS + Trino 架构迁移至 Doris 统一架构。

从架构视角看,原有方案在面对大吞吐多维分析时,不可避免地受到网络传输带宽的瓶颈制约。新架构通过 Doris 实现存算本地化,计算任务在数据存储节点本地执行,减少了大规模数据在网络中的传输开销。
团队通过 Broker Load 功能实现了 Hive 历史数据的平滑同步,并通过统一的 SQL 网关将查询接口迁移至 Doris,整个迁移过程对上层业务无感知。
迁移至 Doris 之后, P90 查询延迟从 52 秒大幅降至 7 秒,延迟降低约 86%,整体性能提升约 7 倍,带来了实实在在的效率提升。
目前,BI 多维分析系统与用户标签系统已在生产环境稳定运行。同时,实时数仓和实时大屏的升级工作也在有序推进,向全域实时的最终目标演进。
未来规划:从统一 OLAP 底座走向智能数据基础设施
后续,团队将继续围绕数据存储成本、业务使用效率和平台运维能力三个方向推进优化,使数据平台从支撑查询分析进一步升级为智能数据基础设施。
- 湖仓一体架构深化:深度集成 Apache Hudi / Iceberg 等主流开源湖仓格式。利用对象存储降低海量历史冷数据的存储开销,结合 Doris 内核优势实现热数据的高并发即席分析,并支持冷热数据自动分层流转。
- 业务语义智能交互:推进 Text-to-SQL 与向量检索技术结合,构建基于大语言模型(LLM)的智能问答引擎。通过业务语义层封装,支持非技术人员直接利用自然语言进行数据探查与指标归因分析。
- 平台自动化运维(AIOps):将专家经验固化为平台原生功能。引入基于负载预测的资源弹性调度、慢查询自动限流与物化视图自动构建,降低分布式集群的运维与持有成本。
整体来看,途虎养车后续的 OLAP 平台建设将不再局限于单一查询引擎的性能优化,而是围绕湖仓协同、语义增强和自动化治理持续演进,逐步构建面向全业务的数据分析与决策基础设施。
如果你的团队也在面对 Hive、HBase、MySQL、Trino、ClickHouse、Elasticsearch 等多套系统并存带来的架构复杂、查询延迟高、运维成本高等问题,可以了解 Apache Doris / SelectDB 在实时分析、用户画像、BI 多维分析和日志分析场景中的解决方案。