• 产品

    产品

    SelectDB Cloud

    全托管、云原生、实时数据仓库服务

    SelectDB Enterprise

    自管理、私有部署、实时数据仓库软件

    阿里云 SelectDB

    官方合作、生态融合的实时数据仓库服务

    工具

    Doris Operator

    在 K8s 上运行 Doris 或者 SelectDB

    X2Doris

    让数据迁移到 Doris 变得简单

    Connectors

    方便与 Flink、Spark 等进行集成

  • 方案
    按场景
    实时报表与分析用户画像与行为分析湖仓一体可观测性与日志分析
    按行业
    汽车行业解决方案新能源行业解决方案
    按技术
    对比 ClickHouse对比 Elasticsearch对比 Trino
  • 用户

    智慧金融

    平安人寿银联商务众安保险奇富科技招商信诺杭银消金

    互联网文娱

    网易游戏抖音集团腾讯音乐TT 语音360 商业化斗鱼

    企业服务

    观测云奇安信天眼查有赞约苗平台360 企业安全浏览器

    电信制造

    极越汽车长安汽车联通

    零售新经济

    钱大妈快成物流美联物业纵腾集团货拉拉蜀海供应链
    查看所有客户案例
  • 文档
  • 资源

    学习

    博客电子书与幻灯片视频

    支持

    工单系统专家服务培训与认证

    社区

    社群论坛活动
  • 联系我们
定价登录 / 注册
免费试用
SelectDB Cloud

专有仓库(SaaS)14天免费使用, 私有仓库(BYOC)30天免计算服务费用

SelectDB Enterprise

同意试用协议免费下载评估试用

  • 产品

    产品

    SelectDB Cloud

    全托管、云原生、实时数据仓库服务

    SelectDB Enterprise

    自管理、私有部署、实时数据仓库软件

    阿里云 SelectDB

    官方合作、生态融合的实时数据仓库服务

    工具

    Doris Operator

    在 K8s 上运行 Doris 或者 SelectDB

    X2Doris

    让数据迁移到 Doris 变得简单

    Connectors

    方便与 Flink、Spark 等进行集成

  • 方案
    按场景
    实时报表与分析用户画像与行为分析湖仓一体可观测性与日志分析
    按行业
    汽车行业解决方案新能源行业解决方案
    按技术
    对比 ClickHouse对比 Elasticsearch对比 Trino
  • 用户

    智慧金融

    平安人寿银联商务众安保险奇富科技招商信诺杭银消金

    互联网文娱

    网易游戏抖音集团腾讯音乐TT 语音360 商业化斗鱼

    企业服务

    观测云奇安信天眼查有赞约苗平台360 企业安全浏览器

    电信制造

    极越汽车长安汽车联通

    零售新经济

    钱大妈快成物流美联物业纵腾集团货拉拉蜀海供应链
    查看所有客户案例
  • 文档
  • 资源

    学习

    博客电子书与幻灯片视频

    支持

    工单系统专家服务培训与认证

    社区

    社群论坛活动
  • 定价
  • 联系我们
免费试用
电话咨询
预约演示
在线咨询
订阅博客双周精选
订阅

关注我们

关注微信公众号

产品

SelectDB CloudSelectDB Enterprise

工具

Doris OperatorX2DorisConnectors

资源

文档中心博客活动

公司

飞轮科技合作伙伴联系我们加入我们新闻报道

Apache Doris

GitHub官网Doris SummitDoris 问答论坛

友情链接

GitHub官网Doris SummitDoris 问答论坛
© 2023 北京飞轮数据科技有限公司京 ICP 备 2022004029 号|Apache、Apache Doris 以及相关开源项目名称均为 Apache 基金会商标|用户协议|隐私政策
返回
OLAP 资讯

Apache Doris 4.0.4:立足实时分析,直面 AI 时代数据新挑战

Apache Doris· 2026/03/24

    摘要:Apache Doris 4.0 作为一个重要里程碑正式发布,引入了原生向量检索、AI 函数以及全新的混合检索与分析处理(HSAP)架构。此后,社区通过 4.0.1 至 4.0.4 四个版本快速演进,本文总结了这四个版本中引入的关键新特性。

    Apache Doris 4.0.4 现已正式发布,该版本相较于其他 4.0.x 版本,更为稳定、可靠。Apache Doris 4.0.4 版本囊括了 4.0.1 至 4.0.4 四个版本中所有的优化及增强功能。该版本的发布,标志着其从实时分析领域迈向广阔的数据管理领域,以应对由生成式 AI 和基于 Agent 系统所驱动的数据管理格局变化带来的数据新挑战。

    • GitHub 下载:https://github.com/apache/doris/releases
    • 官网下载:https://doris.apache.org/download

    1. 面向 AI 工作负载的混合搜索能力

    检索正在成为现代数据平台的核心分析负载,涵盖日志检索、可观测性、文档检索及上下文工程等领域。Apache Doris 在 4.0.X 的每个版本中持续增强其原生搜索能力。

    更丰富的查询语法

    SEARCH() 函数现已支持短语查询、通配符查询和正则表达式查询(4.0.1),用户可以直接在 SQL 中执行复杂的文本检索。

    SELECT * FROM logs
    WHERE SEARCH(message, 'timeout* OR "connection error"');
    

    在 4.0.3 版本中,该函数进一步增强了 Lucene 布尔模式,将 Elasticsearch 风格的布尔查询语义(must / should / must_not)引入到基于 SQL 的搜索中。

    在 4.0.4 版本中,引入了 BM25 分数范围过滤(min_score 语义),允许用户按相关性分数筛选搜索结果,仅保留最匹配的条目——非常适合搜索推荐和智能检索场景。

    灵活的多字段搜索

    Apache Doris 4.0.1 中引入了两个新参数:

    • default_field: 指定搜索的默认列
    • default_operator:控制多列查询的布尔运算符(AND 或 OR)

    用户现在可以更方便地执行多字段搜索,而无需编写复杂的 SQL 表达式。

    JSON 字段搜索

    SEARCH() 函数现在支持通过点表示法直接查询 Variant 类型的子列(4.0.1):

    SEARCH(event.payload.error:timeout)
    

    这对于事件数据和日志分析尤为实用,因为这些场景中 JSON 被广泛使用。

    单列支持多个分词器索引

    单列现在支持创建多个分词器索引(4.0.4)。这使得不同查询场景可以采用不同的分词策略,如多语言搜索、n-gram 采用不同的分词策略,从而显著提高文本搜索的灵活性和质量。

    倒排索引增强

    在 4.0.x 版本中,倒排索引获得一系列基础能力的提升:

    • 支持拼音分词器和过滤器的自定义分词器(4.0.2):通过包含字符过滤器、基本分词器和 ICU 分词器的完整分析能力,以应对中文拼音搜索场景。
    • 支持 NORMALIZER (4.0.3):在索引前对字段值进行规范化处理(如忽略大小写与特殊重音符号),提升搜索精度。
    • 索引格式默认升级到 V3(4.0.1):提高了读写性能和存储效率。
    • 支持多位置 PhraseQuery (4.0.2):支持位置感知的短语匹配,并可配置词项距离约束。

    ANN 向量索引:仅索引扫描

    ANN(近似最近邻)索引现在支持 仅索引扫描模式(4.0.2),允许向量搜索直接从索引中解析结果,而无需扫描表数据。这在大规模向量检索场景中显著降低了 I/O 开销。

    2. 扩展 SQL 与分析能力

    空间函数

    在 4.0.4 版本中新增了三个空间函数:

    • ST_Distance:计算两个几何对象间的距离
    • ST_GeometryType:返回几何对象的类型(Point、LineString、Polygon 等)
    • ST_Length:计算 LineString 的总长度

    这些功能使基本地理空间分析用例(如基于位置的分析、路线测量和地理报告)能够直接在 SQL 中实现,无需外部 GIS 工具。

    增强型时间处理

    两项改进简化了 BI 工作负载中常见的时间分析:

    • **PREVIOUS_DAY()**函数 (4.0.4):返回指定日期之前最近一个工作日的日期,适用于财务报告和基于日历的业务逻辑。
    • 更多**INTERVAL**时间单位(4.0.4):INTERVAL表达式现在支持更多的时间粒度,从而能够进行更灵活的时间窗口计算。

    4.0.x 版本中新增的时间函数包括TIME_FORMAT(4.0.3)、兼容 MySQL 的UTC_DATE、UTC_TIME、UTC_TIMESTAMP(4.0.1)、INTERVAL函数支持(4.0.3),以及add_time/sub_time(4.0.2)。

    改进的哈希函数

    在 4.0.1 版本中新增了两个哈希函数:

    • mmh64_v2:生成与第三方库一致的 MurmurHash64 结果,适用于跨系统数据一致性检查和分片逻辑
    • json_hash:为 JSONB 类型生成哈希值,支持 JSON 数据的去重和比较

    物化视图:更智能的透明加速

    物化视图在 4.0.2 版本中得到了多项重要改进:

    • 非分区基表发生变更时,仍支持透明改写:此前,基表的任何数据变更都会将物化视图标记为不可用。现在,系统会智能评估重写是否仍然有效,从而减少维护开销,提升了近实时场景下的可用性。
    • 支持基于视图创建 MTMV:现在可以在普通视图之上构建物化视图,扩展了其适用性。
    • 支持多 PCT 表:MTMV 刷新支持多个分区变更跟踪(PCT)表,提高了多表物化视图的刷新效率。
    • 支持窗口函数重写:即使物化视图中包含窗口函数,查询现在也能命中物化视图改写,覆盖了更多分析查询模式。

    PostgreSQL 分区表同步

    Streaming Job 现在支持实时同步 PostgreSQL 分区表(4.0.4),实现了以 PostgreSQL 作为事务源、Doris 作为分析目标的 HTAP 架构。

    3. 增强的半结构化数据处理

    在现代分析负载中,半结构化数据持续快速增长。

    VARBINARY 类型新增函数

    Doris 为现有的 VARBINARY 类型新增了四个内置函数(4.0.1):

    • length:返回二进制值的字节长度
    • from_base64_binary:将 Base64 字符串解码为二进制值
    • to_base64_binary:将二进制值编码为 Base64 字符串
    • sub_binary:从二进制值中提取子字节序列

    这些函数使得直接在 SQL 中处理二进制数据(如编码载荷或序列化格式)变得可行,无需往返于应用代码。此外,VARBINARY 类型映射支持已扩展至 Hive、Iceberg、Paimon 和 JDBC 外表(4.0.2),减少了从外部源读取二进制列时的类型不兼容错误。

    JSON 处理增强

    引入多个函数来改进 JSON 规范化和哈希(4.0.1):

    • sort_json_object_keys:对 JSONB 对象的键进行排序,使 JSON 比较具有确定性
    • normalize_json_numbers_to_double:将 JSON 中的数值规范化为 double 类型,简化跨系统比较
    • json_hash:为 JSONB 数据生成一致的哈希值

    这些功能使 JSON 去重和比较更加简便和可靠。在 4.0.2 版本中,JSON/JSONB 类型增加了对 GROUP BY 和 DISTINCT 的支持,允许 JSON 字段直接参与聚合和去重,而无需进行类型转换。

    4. 更强大的湖仓一体集成

    Iceberg 元数据可见性

    新增支持了 Iceberg 系统表 all_manifests(4.0.4),允许用户直接通过 SQL 查看 Iceberg 的清单元数据。这极大地简化了问题排查、存储审计和元数据诊断。此外,4.0.3 版本引入了清单级缓存,以减少频繁查询大型 Iceberg 表时重复的元数据 I/O 开销。

    Iceberg 快照管理

    4.0.4 版本实现了 expire_snapshots 存储过程,允许用户按计划清理 Iceberg 旧快照。这有助于控制元数据增长,降低存储成本,是长期运行 Iceberg 表的重要数据治理工具。

    Iceberg 表优化

    rewrite_data_files 操作已在 4.0.2 版本中实现(通过 ALTER TABLE ... EXECUTE 语法触发),支持对 Iceberg 表进行小文件合并和数据重组。这解决了频繁写入导致的数据碎片化问题,并提升了后续查询性能。同时,4.0.2 版本新增了对分区演进 DDL 的支持,允许在不重建表的情况下更改分区策略。

    Schema 演进支持

    Doris 现在支持对 Iceberg 外表中的复杂类型(Array、Map、Struct)进行 Schema 变更(4.0.4),使外表元数据能够与不断演进的 Iceberg Catalog 架构保持同步。

    更广泛的存储和身份认证支持

    • AWS CredentialsProviderChain(4.0.3):通过标准 AWS 凭证链加载 Catalog 凭证,支持 IAM Roles、环境变量和 EC2 实例配置文件,简化云部署中的权限配置。
    • Paimon DLF Catalog + OSSHDFS(4.0.3):通过阿里云 DLF 管理 Paimon Catalog,并支持 OSSHDFS 存储,适配典型的阿里云湖仓部署模式。
    • 支持 Apache Ozone (4.0.4):原生支持 Apache Ozone 对象存储,为企业部署提供了除 HDFS 外的开源存储选择。
    • OSS bucket-domain-name(4.0.4):支持阿里云 OSS 的 bucket-domain-name 配置,满足企业私有域 OSS 访问场景。
    • MaxCompute RAM Role 认证(4.0.4):MaxCompute 外表现已支持 ram_role_arn 和 ecs_ram_role 认证模式,增强了云原生部署的安全访问能力。
    • libhdfs3 DataNode 主机名支持(4.0.4):支持 dfs.client.use.datanode.hostname 配置,解决了在 Hadoop 环境中 DataNode 通过主机名而非 IP 通信时的连接问题。

    以上是 Apache Doris 4.0.x 系列的主要特性概览,更多细节请参阅官方文档:https://doris.apache.org/docs/4.x/releasenotes/v4.0

    Apache Doris 4.0.4 由超过 200 位社区贡献者共同构建。欢迎加入 Apache Doris 微信交流群,共同参与下一版本的开发。

    Doris 小助手

    上述更新特性 SelectDB 即将同步支持。如果你想快速体验这些新特性,可以访问 SelectDB 官网申请免费试用,或继续使用开源 Apache Doris 自行部署。