构建 AI 数据基座：思必驰基于 Apache Doris 的海量多模态数据集管理实践

导读：面对海量多模态数据管理困境，思必驰通过构建以 Apache Doris 为核心的数据集平台，实现了数据从“散、乱、滞”到“统、明、畅”的转变。在关键场景中，存储占用下降 80%、查询 QPS 提升至 3w，不仅实现可量化的效率提升和成本优化，更系统化地提升了 AI 研发效率与模型质量。

本文整理自思必驰数据中台架构师魏凯君在 Doris Summit 2025 中的演讲内容，并以演讲者第一视角进行叙述。

思必驰作为专注于对话式人工智能的平台型企业，围绕“云+芯”战略布局，致力于提供软硬件结合的全链路 AI 产品与服务。在长期服务智能车载、家居等终端场景中，我们积累了海量的多模态训练语料（包含音频、文本及人工标注）。

早期的数据管理方式逐渐成为 AI 研发的瓶颈。各业务团队的标注数据分散在不同的存储系统中，依赖人工进行维护和同步。随着数据规模快速增长至 PB 级别，传统方式在三个方面面临严峻挑战：

数据一致性问题：同一份数据在不同团队中存在多个副本，且更新不同步，影响模型训练的一致性。
协同效率低下：算法工程师难以快速查找、复用跨团队的数据资产，重复标注与数据准备浪费了大量时间。
版本追溯困难：模型迭代时，无法精准关联训练所使用的数据版本，导致问题复现与效果归因困难。

这些问题使得数据资产化与高效协同成为制约 AI 研发规模化的关键。为此，我们决定构建一个统一的数据集管理平台，目标是将原始数据标准化、资产化，打造一个支持高效调用、可靠追溯、安全共享的“AI 数据基座”。

为何是 Apache Doris？

思必驰与 Apache Doris 的合作始于早期技术实践。在 Doris 0.12 版本时期，我们率先将其应用于内部实时数仓场景，并随业务发展，逐步建立起面向外部服务的 Doris 集群，支撑了包括实时看板、用户画像与自助分析在内的多项数据能力。

此外，Doris 在海量业务日志场景（容器日志）中也发挥了关键作用，替代了原有的 Elasticsearch，并基于 Doris 自建日志查询平台，服务智能座舱语音业务。在同等硬件资源下，日志写入性能从原来的 100w/s 提升至 300w/s，存储成本也降低了 50% 以上。

基于 Doris 在性能、成本、稳定性方面的综合优势，在构建数据集平台时，它自然成为数据底座的首选。我们的新场景对数据库提出了更高要求：

海量数据去重与高效查询：需处理 10 亿级样本的快速去重与复杂筛选。
完善的版本管理：需支持数据集的版本化存储、快速切换与对比。
支持向量检索能力：为后续的相似样本检索、特征比对提供支持。
高性价比存储：需利用高效压缩与冷热分离，降低 PB 级数据的存储成本。

综合评估，Apache Doris 在满足上述核心需求的同时，其简洁的架构、易用的运维以及活跃的社区，使其成为最优方案。

面向 AI 大规模训练的数据基座

我们采用类 MLOps 理念，设计了贯穿数据-模型-应用的标准化流水线。

面向 AI 大规模训练的数据基座.PNG

数据预处理：原始的多模态数据（语音、文本等）通过采集、回流进入系统，经由专业的标注平台进行加工，再进入 AI 数据前台进行清洗与特征提取。
**数据集管理系统：**经过预处理的数据，汇入 基于 Apache Doris 构建的数据集管理系统（即本文核心）。该系统是整个 AI 中台的关键，负责数据的版本化存储、管理与发布，为模型训练与测试提供数据支撑。
模型训练及管理：测试数据集进入模型训练系统进行训练，生成的模型经模型管理平台统一管理，最终部署上线，服务于业务应用。

由上图可知，数据集管理系统被囊括在 AI 中台这一架构中。纵观整个 AI 中台，主要包括三个部分：

数据管理系统：基于 Apache Doris 和 Elasticsearch 构建，提供页面、客户端和相应的 SDK；
AI 平台：基于推理与训练框架，以及资源管理与任务调度框架构建；同样提供页面、客户端和 SDK。
底层基础设施：涵盖计算层、分布式存储体系及优化后的网络层。

面向 AI 大规模训练的数据基座-1.png

为满足不同业务场景需求，数据集管理系统设计了单中心和多中心两种部署架构：

单中心：面向核心研发场景，数据访问统一指向本中心的 Apache Doris、Elasticsearch、Kafka 及相关文件系统，保证最强的一致性与性能。

面向 AI 大规模训练的数据基座-2.png

多中心：面向跨地域或异构计算资源场景，采用分布式设计。主中心的数据层使用 Apache Doris，各分中心采用独立的分布式文件系统，这些存储之间可以实现数据的相互同步。针对各个中心的训练任务，系统能够读取这些分布式文件存储中的数据进行训练。

面向 AI 大规模训练的数据基座-3.png

数据版本毫秒级切换，存储占用下降 80%

过去，我们依靠人工在文件系统中维护数据集目录，随着版本激增，混乱与错误难以避免。新平台需要实现类似代码库的版本管理能力（对比、切换、回滚）。

为此，我们利用 Doris 的特性进行改进：

列式存储：将标注信息等结构化数据从文本文件迁移至 Doris 表，利用列式存储的高压缩特性，存储空间占用降低 80%以上。

分区表实现版本化：以数据集版本作为分区键。最新活跃版本存放在 SSD（热存储），历史版本自动迁移至 HDD（冷存储），SSD 使用率降低 30%以上。
表结构设计：核心围绕数据集表，关联文件表与标注表。通过分区机制，实现了毫秒级的历史版本数据检索与切换。

数据版本毫秒级切换，存储占用下降 80%.png

精准溯源检索，查询 QPS 提升至 3W

为解决模型训练后与原始数据脱节这一核心痛点，数据集平台内置了样本溯源能力。传统的流程在完成特征提取后，往往丢失了原始数据的属性与标注信息，导致两大问题：模型无法关联其“数据血缘”，以及不同模型版本间难以进行有效的对比调优。为此，我们确立了样本 ID 全局唯一的核心要求，以此支撑精准的溯源与检索。

在样本检索实现初期，团队采用 Apache Doris 的 IN 查询方式支撑相关能力，而面对瞬时并发的规模点查请求时，会有明显资源与性能开销，部分节点峰值可达 80%。

为此，团队基于 Apache Doris 的相关能力进行优化，主要采用两类改进：

首先，根据“高频点查”这一核心特征，切换至行式存储并优化 I/O 路径，使单次查询更快。
其次，通过全面启用预处理语句，将查询计划固定下来，避免了大量的重复计算开销。

优化后，在现有配置下，查询 QPS 提升至 3 万/秒；同时在高频点查询期间，CPU 占用由原先约 80% 降至约 10%，并持续稳定。

平台收益：可量化的效率提升与成本优化

在平台落地后，形成了可量化的建设成效：数据集规模超过 1 万个，数据总量超过 500TB，样本数量超过 10 亿，平台使用人数超过 200 人。通过新旧架构对比，新平台在三个维度带来了显著收益：

成本大幅优化：通过消除数据冗余拷贝，存储成本降低 20% 以上，网络成本节约超 3 倍。
效率全面提升：数据查询效率提升超 3 倍，数据同步效率提升超 2 倍。
研发显著提效：模型研发流程效率提升 20% 以上，且数据集使用得以全面规范。

更重要的是形成了不可替代的隐性价值：

统一了数据质量标准：公司内研发、测试、业务团队使用同一套数据和规范，从根本上保障了模型输入的一致性。
增强了问题复现能力：任何模型结果均可精准追溯至对应的训练数据集与版本，使得问题调试、效果归因有据可依。
实现了流程自动化闭环：结合自动标注系统，实现了从数据回流、清洗、标注到训练的数据闭环，极大提升了 Badcase 的定位与修复效率。

未来规划

基于当前的成功实践，未来我们将继续深化 Apache Doris 的应用，推动数据架构向更先进的方向演进：

日志分析场景全面替换：已在 TPS 15 万量级场景完成验证，将加速推进用 Doris 替代 Elasticsearch，预计进一步降低日志处理总成本。
拥抱 Doris 4.0 新特性：重点关注并计划升级至 Doris 4.0 版本，利用其向量检索能力，支持更复杂的相似性查询与 AI 原生应用。
探索湖仓一体架构：打破数据孤岛，实现数据在数据湖（低成本存储）与数据仓库（高性能分析）间的自由流动与统一管理，支撑 SQL 查询、机器学习等多样化负载。
推进存算分离落地：实现计算资源的按需弹性伸缩与负载隔离，并将冷数据沉降至对象存储，在提升资源利用率的同时，追求极致的存储成本效益。

产品

工具

Doris Operator

X2Doris

Connectors

智慧金融

互联网文娱

企业服务

电信制造

零售新经济

学习

支持

社区

产品

工具