返回
用户案例

爱玛集团:All In SelectDB 构建极速统一数据平台,领航 AI 数智化实践

爱玛 数据平台负责人 胡磊· 2025/08/29

爱玛集团作为电动车行业的领军企业,在经过三年多的数智化转型实践,成功构建了 All In SelectDB 的统一数据平台,实现了从传统 Hadoop 多组件架构到 SelectDB 轻量级一体化平台的转变,数据处理效率提高 5-8 倍,系统稳定性显著提升。与此同时,引入 MCP Server 智能交互查询,这背后,是爱玛集团在数据技术选型、架构设计和平台建设方面的深度思考与实践。本文目录预览:

在电动车行业竞争日益激烈的今天,数据成为企业核心竞争力的重要组成部分。爱玛集团作为电动车行业的领军企业,在数智化转型的道路上同样面临着数据分散、处理效率低下、故障恢复时间长等诸多挑战。

经过三年多的探索和实践,爱玛集团成功构建了 All In SelectDB 的统一数据平台,实现了从传统 Hadoop 多组件架构到轻量级一体化平台的华丽转身。调度时间从最初的 8 小时缩短至 2 小时,故障恢复时间从平均 4 小时降至 0.5 小时,数据呈现速度从平均 8 秒提升到 1 秒内,这些显著的性能提升背后,是爱玛集团在数据技术选型、架构设计和平台建设方面的深度思考与实践。

数智化转型.PNG

一、背景

爱玛科技集团股份有限公司成立于 1999 年,是中国电动车行业的龙头企业之一。经过二十多年的发展,爱玛已成为集电动自行车、电动摩托车、电动四轮车研发、生产、销售于一体的大型集团企业。公司在全球拥有 11 大生产基地,产品销往全球 80 多个国家和地区,年产销量超过 1200 万台,连续多年位居行业前列。

爱玛背景.PNG

作为传统制造业企业向科技公司转型的典型代表,爱玛集团将数智化转型作为企业发展的核心战略。公司树立了“全球领先的便捷出行科技公司”的愿景,通过“硬件技术+软件技术+数据技术”三大技术支柱,构建核心竞争力。在数据战略方面,爱玛明确提出要让高质量清洁数据成为企业核心资产,支撑业务的全面数字化和智能化。

随着业务规模的快速增长和数字化程度的不断深入,爱玛集团面临着如何快速构建低成本、高性能的数据技术平台体系来支撑数智化转型战略落地的核心挑战。

二、早期业务挑战

爱玛早期业务挑战.PNG

  • 数据基础设施分散,运维成本过高
    • 在数据平台建设初期,爱玛集团采用了典型的 Hadoop 多组件架构方案。整个数据技术栈包含了 Greenplum、MySQL、Impala、SAP HANA、Hive 等多种数据库和计算引擎,数据开发需要在多个系统间切换,开发人员需要掌握不同组件的使用特性和语法差异,学习及用人成本高昂。每个组件的配置参数、监控指标和故障处理机制各不相同,当某个环节出现故障时,整个数据处理链路都会受到影响,团队需要花费大量时间在系统运维上,真正用于业务价值创造的时间严重不足。
  • 数据处理性能瓶颈明显
    • 随着业务数据量的快速增长,原有架构的性能瓶颈也随之而来。在架构 1.0 阶段,整个数据调度需要 6 小时以上,可视化数据展示时长超过 8 秒,用户体验极差。当系统出现故障时,恢复时间长达 3 小时以上,严重影响了业务决策。
  • 实时数据处理能力缺失
    • 早期阶段,爱玛主要采用传统的批处理模式,随着业务的发展,越来越多的场景需要实时数据支持,如实时电商销售监控、库存预警、生产线状态监控等。传统的 T+1 数据更新模式已经无法满足快速变化的市场需求。实时数据处理能力的不足,使得爱玛在多个关键业务场景中缺乏数据支撑,严重制约了业务场景的发展。

方案尝试与其局限性

为了解决上述问题,爱玛技术团队曾尝试引入实时数据处理组件。在架构 2.0 阶段,团队引入了 SelectDB 作为实时数据仓库的补充,希望通过增加新的技术组件来解决实时性问题。

然而,这种增量式的改进并没有从根本上解决问题。新引入的组件虽然在一定程度上缓解了实时性问题,但同时也增加了系统的复杂度。数据需要在不同系统间流转,增加了数据一致性的风险。团队需要同时维护更多的组件,技术栈的复杂度进一步提升。

更重要的是,这种架构仍然没有解决根本的性能问题。调度时间依然超过 7 小时,故障恢复时间仍需 3 小时以上,数据展示速度也没有明显改善。增加组件数量带来的边际收益递减,甚至在某些场景下,组件间的协调成本超过了性能提升的收益。经过一段时间的实践,技术团队意识到,单纯的组件堆叠并不能解决根本问题,而是需要从架构层面进行系统性的重新设计。

三、解决方案

技术选型的深度思考

爱玛_selectdb解决方案.png

在经历了前两代基于 Hadoop 架构的挑战后,爱玛技术团队开始重新审视数据平台的技术选型策略。团队意识到,与其继续在现有架构基础上修修补补,不如从根本上重新设计整个数据技术栈。

技术团队在调研过程中发现,SelectDB 具备了他们所需要的核心能力:统一的 SQL 接口、极致的查询性能、简化的运维管理,以及对实时和批处理场景的统一支持。更重要的是,SelectDB 的架构设计理念与爱玛对轻量级、高效率数据平台的需求高度契合。

通过深入的技术调研和 POC 测试,团队发现 SelectDB 在导入速度、查询性能、并发处理、运维简易性、稳定性等关键指标上都表现出色。特别是在复杂查询场景下,SelectDB 的性能表现远超原有的 Hadoop 多组件组合方案。这些测试结果坚定了团队选择 SelectDB 作为核心数仓来重构新一代数据平台的决心。

统一数据架构设计

统一数据架构设计.png

基于 SelectDB 的统一分析架构成为了爱玛数据平台 3.0 的核心设计理念。与之前的多组件架构不同,新架构以 SelectDB 为主要的数据处理引擎,SAP HANA 作为辅助补充,大幅简化了技术栈的复杂度。

这种架构设计的最大优势在于统一性。无论是实时数据处理还是批处理分析,都可以在同一个系统中完成,避免了数据在不同系统间流转的复杂性。开发人员只需要掌握标准的 SQL 语法,就能完成大部分的数据开发工作,大大降低了学习成本和开发难度。

运维层面的简化更是显著。原来需要维护多套不同的监控体系,现在只需要关注 SelectDB 集群的运行状态。告警规则、性能调优、容量规划等运维工作都得到了大幅简化,运维效率显著提升。

查算分离架构优化

查算分离架构优化.png

为了进一步优化性能和资源利用率,爱玛团队采用了查算分离的架构设计。通过 SelectDB 的 CCR(Cross Cluster Replication)功能,将计算和查询负载分离到不同的集群中。

计算集群专门用于数据处理和 ETL 任务,配置了适合计算密集型工作负载的参数优化。这个集群承担了所有的数据加工、清洗、聚合等计算任务,确保数据处理的高效性。查询集群则专门用于对外提供数据查询服务,只存储需要对外展示的数据,尽量减少数据冗余。这个集群针对高并发查询场景进行了专门优化,包括合适的索引策略、物化视图配置等,确保查询响应的快速性。

通过这种架构设计,计算和查询负载实现了有效隔离,避免了相互影响。同时,不同集群可以根据各自的负载特点进行针对性的优化,整体性能得到了显著提升。

一站式数据开发平台构建

一站式数据开发平台构建.png

在统一数据引擎的基础上,爱玛团队构建了完整的一站式数据开发平台。这个平台基于 Apache DolphinScheduler 进行了深度定制和扩展,提供了从数据接入到数据服务的全流程管理能力。

数据接入方面,平台结合 SelectDB 的 Catalog 功能,实现了源数据到 ODS 层的快速接入。开发人员只需要选择源头库表和创建好的 Catalog,通过配置 CRON 表达式即可实现数据的定时同步,大大简化了数据接入的复杂度。

在数据开发环节,平台提供了统一的开发界面,支持 Shell、SQL、存储过程、Flink、Spark、Python 等多种开发方式。开发人员可以根据具体场景选择最适合的技术栈,同时享受统一的调度、监控、告警等平台能力。

API 管理功能的加入进一步提升了数据服务的便利性。开发人员只需要选择 SelectDB 数据源,通过表或 SQL 配置的方式即可完成 API 的暴露,无需编写复杂的服务端代码。这种配置化的 API 管理方式,大大提升了数据服务的开发效率。

智能化运维体系建设

智能化运维体系建设.png

为了提升运维效率和系统稳定性,爱玛团队在平台中集成了多项智能化运维功能。工作日巡检排班功能通过配置工作日和巡检人员信息,实现了动态的巡检排班管理,确保每日夜间数据调度都有专人负责。

告警体系的建设也体现了团队对用户体验的重视。平台接入了阿里语音告警服务,当调度任务出现异常时,系统会自动拨打电话通知对应的巡检人员,确保问题能够得到及时处理。这种主动式的告警机制,大大提升了故障响应的及时性。

四、爱玛基于 SelectDB 的数据管理实践

场景一:企业级数据治理

爱玛_SelectDB 构建场景一:企业级数据治理.png

作为一家大型制造企业,爱玛集团的数据来源极其复杂多样。生产数据来自各个工厂的 MES 系统,销售数据分散在各地经销商的 ERP 系统中,用户行为数据则源自移动 APP 和小程序等数字化触点。这些异构数据系统在数据格式、字段命名、业务口径等方面都存在显著差异,给数据的统一管理和使用带来了巨大挑战。

基于新的一站式数据管理平台,爱玛团队实现了从被动治理到主动治理的根本转变。平台在数据开发的每个环节都嵌入了治理机制,确保数据质量问题能够在源头得到控制。

数据标准化管理是整个治理体系的核心。团队按照业务领域维度建立了完整的数据标准体系,涵盖了数据定义、业务口径、计算逻辑、质量要求等各个方面。这些标准不是简单的文档约束,而是直接嵌入到了数据开发平台中,开发人员在创建表结构、编写计算逻辑时都必须遵循既定的标准。

元数据管理实现了自动化和实时化。在数据开发过程中,平台自动采集和更新元数据信息,包括表结构、字段含义、数据来源、更新频率等。当数据开发完成时,相应的元数据也自动建立完毕,避免了传统模式下元数据维护滞后的问题。

数据血缘关系的自动构建是另一个重要创新。平台能够自动解析 SQL 语句中的表依赖关系,构建完整的数据血缘图谱。当某个源数据发生变化时,系统能够自动识别所有受影响的下游表和应用,为影响分析和变更管理提供了强有力的支持。

在数据安全领域,爱玛团队依据数据权限管理规范,构建了数据权限中心,通过 SQL 代理机制与 SelectDB 集成 ,实现了对用户数据查询操作的功能权限与数据权限的精细化管控,同时实施访问行为实时监控,以快速识别潜在风险隐患,全面保障集团数据安全。

通过系统化的数据治理,爱玛的数据质量得到了显著提升,数据标准覆盖率达到 85%以上,核心业务指标的一致性问题基本消除。原来需要花费大量时间进行数据核对和校验,现在通过自动化的质量检查机制就能完成,数据分析师可以将更多精力投入到业务洞察上。

场景二:实时监控与智能决策

爱玛_SelectDB 构建场景二:实时监控与智能决策.png

电动车行业的市场竞争异常激烈,市场变化瞬息万变。爱玛的管理层需要实时掌握销售情况、库存状态、生产进度等关键经营指标,以便及时调整经营策略。传统的 T+1 数据更新模式已经无法满足快速决策的需求。

基于 SelectDB 的实时数据处理能力,爱玛构建了全方位的实时业务监控体系。通过 Kafka 等消息队列系统,销售、生产、物流等各个业务环节的数据能够实时流入 SelectDB 集群,为实时决策提供数据支撑。

实时销售大屏成为了管理层最重要的决策工具之一。大屏展示了全国各地区的实时销售数据,包括销量、销售额、热销产品、区域排名等关键指标。数据的更新频率达到了分钟级,管理层可以随时了解最新的市场动态。

在促销活动期间,实时监控发挥了巨大价值。通过实时数据,市场团队能够及时发现销售热点,快速调整营销资源投入。当某个产品在特定地区销售火爆时,可以立即增加该地区的库存投放;当促销效果不达预期时,可以及时调整促销策略或增加推广力度。

生产监控系统的建设同样依托于实时数据处理能力。各生产基地的设备运行数据、产品质量检测数据、生产计划执行数据等都实时汇聚到统一的监控平台。一旦出现设备故障、质量异常或生产延误等情况,系统会立即发出告警,相关人员可以第一时间响应处理。

实时监控体系的建设为爱玛的精细化管理提供了强有力的技术支撑。销售响应速度显著提升,从原来的天级响应提升到小时级,甚至分钟级响应。在关键促销节点,这种快速响应能力直接转化为销售业绩的提升。库存周转效率得到明显改善,整体库存周转天数减少了 15%,资金利用效率显著提升。

场景三:SelectDB + AI 融合探索

爱玛_SelectDB 构建场景三:SelectDB + AI 融合探索.png

随着人工智能技术的快速发展,爱玛集团明确了“数据+AI”双轮驱动的战略规划。因此团队在数据平台建设中积极探索 AI 技术的融入应用,基于 SelectDB 统一数据平台,系统性地推进数据分析的智能化升级,致力于打造真正意义上的智能化数据中台。

在技术选型方面,爱玛团队经过深入调研和测试,选择了与 SelectDB 技术架构深度集成的大模型解决方案,确保 AI 能力能够充分利用 SelectDB 的高性能计算优势。

在开放生态建设方面,爱玛集团与 SelectDB 团队共同参与了 Apache Doris MCP Server 项目的实践和优化。Apache Doris MCP Server 为爱玛数据平台提供了标准化的 AI 接入能力。通过该服务,各种 AI 模型和应用可以通过统一的协议与 SelectDB 进行交互,极大地简化了 AI 应用的开发和部署复杂度,为构建丰富的 AI 应用生态奠定了技术基础。

自然语言查询(NLQ)功能的实现是这种集成的典型体现。业务人员通过自然语言描述数据需求,比如“查看上个月华东地区电动自行车的销售情况”或“分析最近一周生产线设备的故障率趋势”,系统能够自动将这些自然语言转换为精确的 SQL 查询语句,并在 SelectDB 中获得执行结果。

在实际应用中,MCP Server 提供了近 30 种工具集,涵盖了 SQL 查询执行、元数据提取、性能分析、数据质量监控等多个方面。这些工具让 AI 应用能够深度理解和操作数据,不仅仅是简单的查询执行,还包括数据血缘分析、性能瓶颈识别、数据流依赖映射等高级功能。

Apache Doris MCP Server 最新进展:Apache Doris Data Agent 解决方案:开启智能运维与数据治理新纪元

五、成果及价值

爱玛成果及价值.png

技术性能的显著提升

经过三年多的持续优化和实践,爱玛基于 SelectDB 的数据平台在各项核心指标上都实现了质的飞跃。调度时间从架构 2.0 阶段的 8 小时以上,最终在架构 3.0 中压缩到 2 小时内,处理效率提升了 70% 以上

数据查询性能的提升同样令人瞩目。复杂查询的响应时间从原来的 8 秒以上降低到 1 秒内,用户体验得到根本性改善。故障恢复时间从原来的 3 小时以上缩短至 0.5 小时内,系统稳定性显著提升。

运营成本的有效控制

统一数据平台的建设在显著提升性能的同时,成本控制效益也十分明显。整个平台的建设和维护投入约为 3-4 个人,全年人天投入约 1000 天,相比传统的 Hadoop 多组件架构,人力成本降低了 40%以上

这种成本优势主要来源于架构的简化和运维的统一。原来需要维护多套不同的技术栈,现在只需要专注于 SelectDB 集群的运维管理,大大降低了技术团队的学习成本和维护成本。同时,SelectDB 提供的自动化运维工具进一步减少了人工干预的需求,提升了运维效率。

硬件资源的利用率也得到了明显改善。通过查算分离的架构设计,计算资源和查询资源实现了有效隔离和优化配置,避免了资源浪费。相比原来的多组件架构,整体硬件成本节省了 25%左右

更重要的是,平台的标准化和自动化大大降低了新项目的启动成本。新的数据需求可以快速响应和交付,开发周期从原来的周级缩短到天级,极大地提升了业务支撑的敏捷性。

业务价值的深度释放

数据平台的建设最终目标是为业务创造价值,爱玛的实践充分验证了这一点。通过高效的数据服务,业务团队能够更加精准地洞察市场趋势,优化经营决策,创造了显著的业务价值:

  • 销售预测的准确性得到大幅提升。基于实时数据和历史趋势分析,销售预测的准确率提升到 85%以上,为生产计划和库存管理提供了可靠的依据。
  • 客户运营的精细化程度显著提升。通过 360 度客户画像和精准分群,营销活动的转化率提升了 25%,客户生命周期价值增长了 20%。个性化的客户服务让客户满意度和忠诚度都有了明显改善。
  • 生产运营的效率和质量也得到了提升。通过实时监控和预警,设备故障率下降了 20%,生产计划执行准确率达到 98%以上。这些改善不仅降低了运营成本,也提升了产品质量和客户满意度。

数据驱动决策文化在企业内部得到了广泛普及。各级管理人员都习惯于通过数据分析来支撑决策,业务流程的科学性和规范性得到显著提升。这种文化的转变为企业的长期发展奠定了坚实基础。

总结

爱玛集团 All In SelectDB 的数据平台统一架构与 AI 数智化转型实践,已然成为传统制造业转型智能企业的典型案例。从 Hadoop 多组件复杂架构到统一平台重构的演进,凸显了团队在技术选型与架构设计的深度思考,以及在 AI 技术融合上的前瞻布局——通过深度合作参与开源项目,既助力自身升级,也推动行业智能化发展。

从技术发展的角度来看,SelectDB 在这个案例中展现出的优秀性能和易用性,以及其在 AI 生态建设中的积极作用,为其他企业的技术选型提供了有力的参考。作为新一代的统一分析数据库,SelectDB 在简化架构、提升性能、降低成本、提升稳定性以及支撑 AI 应用等方面的优势得到了充分验证。