近日,由中国信息通信研究院和中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织的 2023 大数据“星河(Galaxy)”案例征集,公布入选案例结果。飞轮科技与长安汽车共创项目——“长安汽车基于 Apache Doris 的车联网数据分析平台建设实践”入选为【数据库方向】优秀案例。
大数据“星河(Galaxy)”案例征集活动已连续举办七届,自今年 9 月启动以来,受到了业界广泛关注和踊跃报名,共收到申报项目 706 份。该活动旨在通过总结和推广大数据产业发展的优秀成果,更好地推进大数据技术产品及相关产业的繁荣发展,充分发挥数据作为生产要素的独特价值。案例征集包括:行业数据应用、数据安全、数据要素流通、数据资产管理、数据库、以及数据向善六大方向。
近些年来,长安汽车取得了令人瞩目的销量增长成绩。1-8 月,长安汽车自主乘用车累计销量超百万辆、保持持续上升的发展势头,以深蓝、阿维塔、启源为代表的新能源系列品牌力和产品竞争力不断提升,自主新能源车累计销量约为 25.6 万辆、同比增长 102.44% ,成为销量增长新动能。
随着汽车销量的不断增长,更安全、更舒适、更便捷的驾驶体验需求也在快速增长。为满足这一需求,长安汽车决定对车联网数据分析平台进行升级。凭借 Apache Doris 卓越的性能,长安汽车已经成功部署数十台机器,支撑近十条业务线,实现单日百亿级别数据的实时处理以及十亿级别数据查询的秒级响应:
- 支持大规模数据实时写入和迁移:车辆设置了大量的传感器,每个传感器收集一种或者多种信号数据,目前长安汽车需支持至少 400 万辆车的链接,车联网数据每秒吞吐量达百万级 TPS ,每日新增数据高达数十 TB 。Apache Doris 支持丰富的数据导入形式,可轻松从不同的数据源中导入数据。Doris 还支持通过 insert into select 快速导入数据,无需进行繁重的数据迁移配置或引入外部同步组件即可而实现大规模数据实时写入及迁移。
- 统一数据服务,秒级查询响应:车联网场景下,快速获取分析结果是实时监控、故障诊断、预警和实时决策等服务的重要保障。通过 Apache Doris 提供的 Multi-Catalog 功能,长安汽车实现了数据服务的统一,数据分析师可在 Doris 中直接查询外部数据源(如 MySQL、Iceberg、Hive 等)数据,极大提高查询效率;其次,基于 Doris 优秀的 Join 性能,面对单张/多张千万级别的表关联查询可实现秒级返回结果。
- 存储和计算成本有效降低:长安汽车每天会产生千亿级别的 CAN 数据,清洗处理后的数据达 50 亿级别,这要求数据平台具备低成本存储和弹性扩缩容能力。借助 Apache Doris 提供的 ZSTD 压缩算法(3-5 倍压缩率提升),可有效降低计算和存储所需的资源。此外,基于 Doris 极简的架构,不仅让部署运维更加简单,也让扩缩容操作更加方便弹性,提高了资源利用率及数据计算效率。
总而言之,Apache Doris 的引入为提升用户用车体验、实时预警车辆故障、保证车辆安全驾驶等方面提供了有力支持。未来,长安汽车也将继续扩大 Apache Doris 使用范围,将其应用于标签及指标业务中,并积极尝试最新版本及功能,不断探索创新方案,以推动长安汽车智能化发展,为用户提供更优质的驾车体验。