连林江:携手更多客户与合作伙伴,共建现代化数据分析栈

新闻动态
2023/11/8
飞轮科技 COO 连林江

导读:9 月 25 日,2023 飞轮科技产品发布会在线上正式召开,本次产品发布会以“新内核、新图景”为主题,飞轮科技 CEO 马如悦全面解析了现代化数据仓库的演进趋势,宣布立足于多云之上的 SelectDB Cloud 云服务全面开放,增加了全新的私有仓库(BYOC)产品模式,同时发布了更加自主可控的 SelectDB Enterprise 企业版。飞轮科技联合创始人兼 COO 连林江介绍了基于 SelectDB 的多个场景解决方案以及生态合作模式,来自同盾科技、趣丸科技以及观测云的多位客户代表为大家分享了基于 SelectDB 的架构升级在真实业务场景中带来的收益,未来飞轮科技将坚持以“客户价值”为出发点引领技术革新、以“开放共赢”为核心理念携手更多合作伙伴,为行业注入新的活力。

免费试用 SelectDB Cloud

以下内容根据飞轮科技联合创始人兼 COO 连林江演讲内容整理:

作为一家数据基础设施公司,除了打造更强的技术内核与更全面的产品体系以外,飞轮科技也在一如既往地面向平台建设和业务场景提供更加深入的系统能力和解决方案,期望减少客户在基础数据分析平台上的资源投入和人力成本,简化应用构建、提升应用效果。

丰富的解决方案体系,致力于解决客户痛点

在混合云和多云部署、实时报表与实时决策、交互式探查、用户行为与画像分析、日志管理与分析等诸多场景,我们将进一步给您提供更加全面而深入的解决方案。

连林江-云部署数仓.png

混合云和多云部署,多云一致的使用体验

当前企业上云已成为常态,云提供给了企业先进的计算形式和革命性的 IT 消费模式,而因为行业特点、企业发展现状和具体业务需求等因素,不同企业会选择不同的用云策略。 我们经常能看到公有云、私有云以及混合云等不同的云上使用模式,而从目前的行业趋势来看,采用混合云和多云的部署策略越来越成为主流趋势。混合云策略是业务同时使用私有化和公有云的基础设施,比如有些软件只能运行在私有化 IDC,或者需要利用已有 IDC 的投资、结合云做弹性扩展以及灾备。多云策略允许组织通过充分利用每种云提供的最佳功能、最大限度地减少供应商锁定并提供更多优化机会,为其业务创建最佳的云解决方案。 企业要应用好这些混合云和多云策略,也有不少新的挑战。 首先是多云可用的体验,无论是 IDC 部署或者公有云多云部署,都需要有相应的产品形态并提供一致的使用体验。其次是统一运维和管理,企业使用多云增加了统一运维管理的复杂性,对于单云架构、可使用云服务商提供的管理工具,但对于多云架构,如何使用统一平台进行运维管理进而提升 IT 服务交付效率、降低运维成本,成为值得关注的问题。 最后是打通和迁移的难度,使用多云后无法避免数据的跨云打通和迁移。而在异构的云、数据中心之间进行数据打通和迁移,如何保证数据的一致性以及低时延又成为了新的挑战。

连林江- Select DB 解决方案.png

为了给客户提供混合云和多云的完美体验,SelectDB 提供了全方位完善的解决方案。 第一,我们提供了灵活的产品使用和部署形态。SelectDB 内核基于 Apache Doris 打造、完全开源开放,与 Apache Doris 100% 兼容,客户可以在开源软件和商业软件之间灵活选择。 同时我们提供了在 IDC、私有云部署的 SelectDB Enterpris 企业版以及在全球七朵主流云上的 SelectDB Cloud 云服务,无论哪种形态都拥有一致的使用体验。 第二,我们提供了统一的可视化管控工具。SelectDB Cloud 自带可视化管理控制台,支持对多云上的仓库和集群进行统一管理。 SelectDB Enterprise 企业版则提供了可以私有化部署的 Enterprise Manager,可以对部署在物理机、虚拟机、Kubernates 容器平台以及公有云、私有云上的自建集群进行统一纳管。 第三,我们实现了完善的数据贯通和迁移能力。SelectDB 提供跨集群复制能力,可以在多云上进行集群异步复制,同时提供了丰富的数据迁移工具,方便从私有化部署迁移到云上或者在云与云之间进行迁移。

实时报表与实时决策 ,分析快人一步

在实时数据服务业务场景中,我们一般会看到两类典型场景,一类是服务在线业务、有大量用户实时访问的在线高并发报表场景,其中的典型应用包括:

  • 广告营销报表,为广告主提供广告曝光、点击、消费等报表和分析;
  • 保险客户分析,为保险代理人提供客户计划和转化分析报表;
  • 物流实时看板,为物流站点提供压力、效率、客诉等实时分析;
  • 交易明细查询,为用户提供订单、账单、物流单等明细查询服务; 而另一类则是大量面向程序、算法自动调用的实时决策场景,典型应用包括:
  • 物流跟踪:ETA 预测和路线优化等;
  • 异常检测:欺诈检测、垃圾检测和威胁检测等;
  • 智能推荐:千人千面、动态定价、客户分类等;

连林江演讲-应用场景.png

在过去有非常多的数据服务方案来解决这些场景问题,但大多存在局限性:

  • 数据延时高:在线报表服务需要访问最新的数据,数据时延需控制到秒级以内,当前的解决方案对于上游数据的写入或者更新支持有限,大多仅支持数据的批量更新、数据延迟较高,难以反应数据的实时变化。
  • 查询响应速度慢:由于直接面向在线业务系统使用,因此对查询性能要求更高、以确保用户的查询体验。当前的解决方案往往难以应对大数据量下的快速查询响应。
  • 查询并发低:在线报表服务不仅需要面向公司的管理层,更要面向公司内更广泛的人群甚至面向 C 端用户,传统解决方案难以在业务高峰期支撑大量用户的高并发请求。
  • 服务可用性差:在线报表服务直接展示订单、消费、物流等相关数据,服务故障将直接影响业务运转,当前的解决方案在高并发、高吞吐的大查询下有服务无法响应的风险。

连林江演讲-实时报表.png

SelectDB 提供全面的系统能力来解决这些问题和挑战,并提供了一个整体的实时报表与实时决策解决方案:

  • 在实时数据写入方面,支持 100 万行每秒的实时写入,也支持流式从 OLTP 数据库和 Kafka 同步数据。同时在上游关系数据库中某些数据变化时(例如订单状态等),可以捕获数据变更并实时地完成数据更新,及时生成有关订单状态等信息的分析报告。
  • 在查询响应性能方面,SelectDB 的存储引擎和计算引擎实现了全链路的向量化,实现数量级的查询加速。同时提供了强一致的聚合物化视图,自动使用预聚合结果,满足亚秒级聚合统计查询。
  • 在高并发查询方面, SelectDB 采用分区分桶将单个查询分发到单台机器处理、使用跳数索引(如 ZoneMap, Bloom Fliter)和点查索引(如主键索引、倒排索引等)减少读取数据量,提升并发查询能力。同时 SelectDB 引入了行式存储以及行级缓存应对高并发点查场景,减少 IOPS 压力、支撑单机上万 QPS 的超高并发。
  • 在服务的稳定和高可用方面,SelectDB 无单点故障,支持在线弹性扩缩容以及集群在线升级、实现集群的高可用。

交互式探索分析,灵活流畅的数据分析体验

交互式探索分析正在成为越来越重要的数据分析场景,与实时报表与决策场景不同,实时报表与实时决策一般是预先根据业务需要、由专业工程师进行预先开发,交互式探索分析大多是由数据分析团队发起的临时分析,一般无法提前预知。这种开放式的数据探索方式大量出现在企业的真实场景中,包括:

  • 对微服务架构进行故障排除的运维团队需要剖析相关数据,以便诊断和调试问题;
  • 数据工程师、分析师和科学家需要定位异常情况、发现异常模式并挖掘数据以获得见解;
  • 技术支持团队需要解析来自物联网传感器的大量数据,以便调查故障和性能问题; 一般交互式探索会配置以强大的仪表板来从多个角度调查数据,使用不同的可视化效果,能够按维度和值进行多维度分析、进行切片和切块、上卷下钻。而这些都需要底层数据平台有足够快的查询速度、足够灵活的数据探索以及大量用户的并发查询能力。 当前由于底层数据平台的计算效率不足,尤其在使用 Hive、Spark 等离线处理引擎,用户经常需要分钟级甚至小时级的响应时间才能对其数据运行查询或其他操作,这大大局限了数据分析团队的效率提升。 除此之外,当前在交互式探索分析场景还面临一系列挑战:
  • 如何方便地接入更广泛的数据源,通过统一的查询引擎,尽可能方便访问足够多的数据源,减少不必要的数据拷贝;
  • 无论是简单或复杂 SQL 都可以极速执行,以便让数据分析人员不再等待系统,给数据分析人员提供流畅的交互式分析体验;
  • 许多要分析的数据都可能和在线服务的数据是共享的,如何防止 Ad-hoc 查询影响了在线查询的稳定性、如何解决查询负载隔离、如何防止异常 SQL 影响系统稳定性。

连林江演讲-交互式探查分析.png

而 SelectDB 提供了更优的解决方案来应对以上提出的挑战:

  • SelectDB 支持通过 Multi-Catalog 机制将外部的数据库、数据湖映射为 SelectDB 的库表,随后可以通过统一查询入口对外表、内表进行联邦查询,做到了无需移动数据即可完成即席分析;
  • SelectDB 通过 CBO 查询优化器、MPP 分布式执行框架、向量化计算引擎等一系列能力,对多种查询负载提供了极速查询性能。不论是简单的大宽表查询还是复杂的多表 JOIN 都拥有极速性能。针对一些资源消耗较大的 SQL,SelectDB 还提供了中间结果落盘,减少对机器资源的扩张要求。
  • SelectDB Cloud 提供多计算集群能力,可以和在线服务的查询集群共享一份存储数据,但又不影响在线查询集群的服务稳定性。同时,在查询集群内,也可以划分不同的查询资源组,来隔离一个集群内不同的查询。SelectDB 还提供了异常 SQL 的捕获能力,那些可能会造成节点内存 OOM 的查询会被及时发现并 Kill。

用户画像与行为分析,助力企业精细化运营

CDP(用户数据管理平台)是企业用来收集并统一管理用户在多个渠道上的完整数据的工具。通过分析收集到的数据,CDP 可以形成用户 360 度全景画像,洞察用户的行为、兴趣、需求等信息,更好地把握用户的生命周期。同时基于人群标签的圈选和分析,也可以为企业精细化运营和产品迭代提供决策基础。

连林江演讲-用户画像与行为分析.png

在企业构建 CDP 平台的过程中,底层数据分析系统往往成为制约业务发展的掣肘:

  • 表结构不灵活:随着产品迭代需要新增埋点数据字段,例如关注功能或停留时间属性。当前解决方案不具备轻量级的表结构变动能力,难以保证高效应对业务变更;
  • 分析复杂:当前的解决方案在分析离散事件的关系时,常使用通用 SQL 处理时间范围间隔,将计算逻辑变得非常复杂,并且可能需要引入大量的 join 操作,计算效率低。
  • 无法实时更新:用户标签数量通常为几百到上千个,受计算资源和业务特点等多种因素影响,标签生成时间各异,但业务侧往往需要最新的用户数据,当前的解决方案难以兼顾计算与更新。
  • 难以实时响应查询:每个用户每天会产生多个埋点数据,随着用户数量增加,行为数据量也会呈指数级增长。当前的解决方案难以实时响应查询需求。

连林江演讲-用户画像与行为分析-解决方案.png

在大量开源社区企业用户的场景沉淀下,SelectDB 面向用户画像和行为分析场景提供了更优的解决方案:

  • 毫秒级加列、部分列更新,支持行为分析业务属性频繁变动,支持画像场景的宽表列实时更新;
  • 丰富的行为分析函数支持,包括 rentention、window_funnel、sequence_match 等复杂函数,带来开发流程的大幅简化;
  • 实现海量数据的秒级圈选,在千亿量级用户画像数据规模下,提供了秒级人群预估、秒级 10 标签圈人、10 秒级别 100 标签人群圈选,极大幅度提升业务场景的分析效率。

日志存储与分析,更高性价比的选择

日志数据是企业大数据体系重要的一环,常见的日志种类有服务器日志、网络设备日志、物联网日志、业务日志等,常用于故障排查、监控告警等,对于保障系统、业务稳定性至关重要,需要统一汇集并分析应用。

连林江演讲-日志存储与分析.png

日志数据有写多读少、成本敏感、时效性要求高的特点,当前基于 Loki、Elasticsearch 等产品的解决方案 往往面临以下的问题:

  • 写入吞吐量与实时性差:大规模系统中,日志数量庞大,每秒钟产生的日志消息数量可能达到数千万。既要高吞吐写入,又要实时可见,当前常见的解决方案难以满足数据实时写入可查的需求。
  • 存储成本高:随着时间的推移,日志数据规模会不断增长,存储量会达到非常巨大的规模,当前常见的解决方案存储成本高,难以满足日志数据长周期存储需求。
  • 查询响应速度低:日志场景需要快速文本检索,查出匹配关键字的日志,以满足故障排查等场景的快速响应,当前常见的方案的查询响应速度往往不尽人意。 SelectDB 为日志数据的统一存储与分析打造了全新的系统方案,将日志系统接入到 SelectDB,实现日志的实时查询、低成本存储和高效检索分析,降低企业日志系统综合成本,提升日志系统的性能和可靠性:
  • 在写入性能方面,SelectDB 支持海量日志数据实时写入能力,全新内核引入了专门为日志场景优化的高性能倒排索引,写入速度是 ES 倒排索引的 4 倍。同时引入了服务端 Group Commit 机制,保证秒级实时可见前提下写入吞吐到 GB/s。
  • 在低存储成本方面,SelectDB 采用列式存储和高压缩比算法,相同数据占用的存储空间仅需 ES 的 1/5。同时利用云上共享存储实现了冷热数据分层,性价比是 Elasticsearch 的 10 倍以上。
  • 在高效检索分析方面,SelectDB 通过分区分桶裁剪、丰富的索引结构以及优化算法,大幅减少数据的扫描范围并提升查询效率,同时高性能倒排索引可以按检索词快速定位到匹配的日志行,实现百亿级数据上的秒级甚至毫秒级响应。

来自真实客户的声音,与 SelectDB 共创共建

在过去的一年里,SelectDB 凭借领先的技术与产品实力和创新的解决方案获得了大量企业客户的认可,并广泛地落地于各行各业的大数据分析业务场景中。基于丰富实践经验的快速打磨与迭代,已经令 SelectDB 具备了更高的成熟度和稳定性。今天来自同盾科技的首席架构师兼副总裁董启江、TT 语音的研发总监莫涵宇、观测云的资深架构师兼 GuanceDB 研发负责人熊豹也将为大家分享 SelectDB 在真实业务场景中的实践经验,很高兴看到这些客户认可 SelectDB 给他们带来的价值。

SelectDB 携手同盾科技,赋能全球化业务迅猛增长

同盾科技是中国领先的人工智能科技企业,专注决策智能领域,致力于帮助政企客户防范风险、提升决策效率。近年来,同盾科技一直在加速国际化布局,2018年在新加坡设立国际总部,之后又陆续在印尼、马来西亚、阿联酋成立分部。 TrustDecision 是同盾科技推出的全球风险决策智能新品牌,为全球企业客户提供数字金融、跨境电商、支付、航旅、媒体、社交、数字货币等风险决策服务,通过领先的AI技术有效降低企业风险、提升运营效率,截止目前已经为全球超过 300 家国际客户提供服务。

连林江演讲- 实时数据仓库案例-同盾.png

当前,同盾科技已在 TrustDecision 客户数据报表与分析平台中使用了 SelectDB Cloud 云服务。 客户数据报表与分析平台主要是对客户提供日常的数据报表与分析服务,方便客户了解风控决策效果,分析洞察风险情况。主要数据源有设备数据、客户业务数据、风控决策结果数据等,数据量在亿级别,这些数据会通过 Kafka 进行统一收集并提供给报表与分析应用使用,包括关键词查询、明细查询以及实时报表与聚合分析。

连林江演讲-同盾-痛点.png

在过去同盾科技采用 Elasticsearch 进行数据存储,遭遇了以下痛点:

  • ES 分析能力较弱、不支持 Join,在海量数据下复杂的聚合分析要么无法做、要么性能比较差;
  • ES 使用成本比较高,不支持存算分离、不具备弹性计算能力;
  • ES 维护成本偏高,各数据中心不支持一致的用户体验。Trust Decison 在全球有多个数据中心(比如国内、北美、欧洲、东南亚),既有本地部署,又有多个云数据中心,希望在所有的环境都能有体验一致的产品可以使用。

连林江演讲-同盾-多云实时数仓.png

鉴于以上问题以及对 Apache Doris 的前期调研和试用,同盾科技最终选择了飞轮科技提供的 SelectDB Cloud 云服务。从新的系统架构图可以看到,同盾科技将其中负责数据存储和分析的平台从 Elasticsearch 替换成了 SelectDB,在国内所使用的是私有化部署的 SelectDB Enterprise 企业版,在海外云环境使用了 SelectDB Cloud 云服务,目前已开通阿里云、华为云、AWS 等多个站点。 基于 SelectDB Cloud ,同盾科技解决了原有架构遇到的大量核心问题:

  • 依托 SelectDB 实时导入与极速分析能力,让整个平台的分析能力极大增强,例如在秒杀风控场景支持数千 TPS 的实时写入,数亿数据的实时分析;
  • SelectDB 提供倒排索引、支持基于关键词的快速检索,而且完全基于 SQL 查询,相比 ES 查询更易使用;
  • SelectDB Cloud 是存算分离的云原生架构,提供了弹性计算和快速扩缩容能力,带来了 3-5 倍的性价比提升;
  • SelectDB Cloud 是构建于多云之上的实时数仓服务,并且与业内主流云厂商都深度整合,提供从混合云、多云一致的使用体验,全托管的服务也极大降低了运维成本。 后续同盾科技也将在更多场景深入使用 SelectDB,包括特征指标服务、服务可观测性、风控效果监控等,并利用 SelectDB 的湖仓融合能力与现有大数据平台更好融合,随着业务发展也将在更多云和更多地域开通 SelectDB Cloud 云服务。

连林江演讲-同盾-未来规划.png

SelectDB 携手 TT 语音,助力用户画像数据平台改造升级

趣丸科技成立于 2014 年,是一家集兴趣社交及电子竞技等业务于一体的创新型科技企业,旗下有 TT 语音、麦可及 TTChat 等多款兴趣社交产品。核心产品 TT 语音是国内领先的兴趣社交平台,累计注册用户已超 2 亿,并成为 LPL、KPL、PEL 等五大头部电竞职业赛事官方合作伙伴。趣丸科技利用多年聚焦兴趣社交领域的深厚积累为核心优势,积极瞄准全球数字技术基础前沿领域和关键核心技术的研发和创新。

连林江演讲-TT语音-用户画像平台.png

在 TT 语音数字技术基础中,用户画像和行为分析是技术底座中的核心功能,通过精准的用户画像构建和人群圈选持续提升为业务运营能力,带动业务增长。 整体画像平台的业务流程如上图,通过将多源的数据汇聚到数据平台,其中数据源包括用户行为数据、离线标签、实时标签和日常运营产生的数据。这些数据通过数据集成服务汇聚到数据平台后,在数据平台中构建用户画像模型,对外提供人群画像、人群圈选、用户洞察、效果分析等数据服务,最终应用于智能运营、AB实验、客服系统、风控系统和推荐系统等各个上层应用系统中。 由于历史原因,TT 语音最初的数据平台构架在 ClickHouse 上,随着业务的发展 ClickHouse 缺点逐渐显现出来:

  • 由于数据更新性能有限,因此无法满足实时标签频繁更新;
  • ClickHouse 内存管理不完善,易出现 OOM 导致服务进程退出的情况;
  • 由于不支持事务,DDL 语句无原子性保障;
  • 由于 ClickHouse 是存算一体架构,海量数据存储下每个节点都需要挂载 SSD ,造成存储成本居高不下,并且扩缩容和运维的成本较高;
  • ClickHouse 多表 Join 能力弱,导致大部分业务要在数据集成侧打成大宽表后才能分析,增加了业务处理的复杂度。

连林江演讲-TT语音-基于SelectDB用户画像平台.png

基于以上痛点,TT 语音将数据平台进行了升级改造,从 ClickHouse 升级到 SelectDB Cloud。基于 SelectDB Cloud 的新架构也解决了过去存在的诸多痛点:

  • 基于主键表的部分列实时更新,解决了过去标签更新不及时的问题;提供轻量化并且原子化的元数据修改,解决标签的数据准确性问题;
  • SelectDB Cloud 通过 MemTracker 机制对内存进行有效管控,可以及时发现和 Kill 异常查询,保证了稳定的查询服务、保障线上业务的稳定运行。
  • 通过存算分离提供了极致的极致性价比,云上开箱即用的服务,降低了运维成本

值得一提的是,SelectDB Cloud 既支持大宽表查询、也支持复杂的多表 Join 查询,在实际应用中百亿明细数据和十多亿的标签数据 Join 仅需要 3-5 秒就能完成,这极大降低了业务的复杂度,提升了业务的灵活性,。 经过一系列的架构探索,TT 语音在服务器资源和成本方面节省了 40%以上,解决了过去存在的数据更新不及时以及数据准确性问题,基于弹性计算、多集群部署以及资源隔离等能力使服务可靠性提升 5-10 倍,整体人群圈选效率提升 10 倍。而 TT 语音也计划在未来将更多业务放到 SelectDB 中来,包括智能运营、业务风控以及基于用户行为明细数据的实时人群圈选。最后已经看到大模型与 Apache Doris 在业界已经有很多的成功案例,也会探索大模型结合 SelectDB 构建智能的用户画像和洞察服务。

SelectDB 携手观测云,打造实时数仓与可观测性领域的行业标杆

观测云是一家国内领先的具备可观测性的实时数据检测平台的公司,其自研产品「观测云」首批通过中国信通院颁发的「可观测性平台技术能力」先进级认证,可实现对云、云原生应用及业务系统的统一观测需求,为互联网、零售、金融等行业用户提供统一高效的数字化可观测服务。 随着可观测理念逐渐深入人心,人们越来越意识到去通过多层次、多维度、多视角的数据去观测应用系统,来提升故障的定位效率以及业务分析能力,但在真正尝试落地实践构建可观测平台时又会遇到各种问题:

  • 数据来源不一,客户端测需要观测包括 Native、Webview、Hybrid、小程序等多种 App 环境,应用后端需要关注 Java、Python、PHP、Go 等程序语言,也需要从不同的中间件和基础系统如 Redis、MySQL、Doris、Kubernetes、Linux 等系统中采集不同维度的数据,还存在部分基础数据在托管的云厂商上,要持续跟进和完善整个采集链路成本和难度非常高;
  • 在数据采集后,还需要对采集到的可观测数据进行存储和使用。如果数据存储在不同的系统中比如 Prometheus、ES、Clickhouse 等,最终的用户又会面临查询语言和查询界面设计不统一的问题,也会严重影响平台在不同业务场景下的适配性。 因此需要一个自顶向下的统一全链路可观测性平台,这也是观测云的设计出发点。

连林江演讲-观测云-可观测平台.png

观测云维护了 All In One 的开源采集器 Datakit,适配了几乎上述所有的业务场景,构建了常见的业务监控视图,包括 RUM、APM、Log、Infra、Network,也支持用户自定义 Dashboard 来满足更多的业务场景需求,所有的可观测数据都支持使用自研的 DQL 查询语言来查询,实现了真正的可观测领域的 All In One,极大降低了系统的可观测性建设成本。

连林江演讲-观测云-需求与挑战.png

在可观测性场景,数据访问存在以下特点:

  • 数据采集场景非常多,数据写入和查询负载类型多样,覆盖高频周期性追加、全量或部分更新、高频点查、范围查询、聚合查询等几乎所有常见的场景;
  • 写入吞吐高,单个可用区数十万行每秒、峰值写入流量 GB/s,并且由于数据会被用来做告警,写入后要求秒级可查询;
  • 存储的历史数据量大,不同类型的数据保存周期不一样,需要能按时间批量失效,单个可用区存储的历史数据可能高达百 TB、万亿行数据;
  • 所有数据都无 Schema,大部分数据字段都支持跟随被观测的对象动态调整属性字段,支持自由配置与其他类型数据的关联信息; 在这一背景下,观测云将两种比较典型的负载分开存储在不同的系统,指标类型存储到了自研的 GuanceDB 指标引擎中,泛日志明细模型的数据存储在 Elaticsearch 中。随着数据规模不断扩大,也逐渐遇到许多问题,比较典型的有两点:
  • ES 资源开销高,一方面是内存和 CPU 开销高、另一方面是历史数据存储的成本高,同时当前 ES 的冷数据存储设计还存在查询准确性问题;
  • ES 维护成本高,一方面是在高负载下集群稳定性不太高,另一方面频繁遇到分片数据量限制,需要经常手动调整索引分片数量;
  • 通过 ES Mapping 来动态映射字段易用性差,一是在长期的使用过程中一些字段会被淘汰、另一些字段新增,经常遇到总字段数的限制,另一方面由于字段创建后不能更新、时长会遇到字段类型的冲突。

连林江演讲-观测云-基于SelectDB构建可观测平台.png

因此观测云选择使用 SelectDB Enterprise 企业版替换 Elasticsearch,充分发挥 SelectDB 在日志存储以及半结构化方面的优势,在新架构下获得了许多收益:

  • 实现更高吞吐的数据实时写入,峰值写入速率达 1GB 每秒, 写入后即可提供查询;
  • 使用了冷热数据分层降低存储成本,成本仅需要 ES 的 20%~30%;
  • 摆脱了 ES 的索引分片数据量限制,SelectDB 可以根据数据量自动伸缩 Bucket,每天可以根据前一天的数据量动态伸缩 Bucket,保证写入和查询的高效;
  • 摆脱了 ES 的索引字段数量和类型的限制,SelectDB 提供强大的半结构化数据支持,Variant 字段可以根据写入数据类型来动态调整,能写入任意 JSON 动态数据,无需再担心数据类型冲突的问题。 观测云引入 SelectDB 极大降低了数据的存储成本,也极大提升了存储运维的效率,后续也将持续关注最近技术动态,进一步降低成本并提升系统架构的稳定性。

开放共赢,布局合作伙伴生态

在飞轮科技近两年的发展历程中,我们已经和超过百家不同类型的生态伙伴开展了产品集成认证、解决方案联合共建、渠道联合开拓等不同层面的合作模式,涵盖了硬件、操作系统、云平台、数据应用、BI、行业解决方案等领域,其中与 40 家以上合作伙伴完成产品集成。

连林江演讲-合作伙伴生态图 .png

我们进一步深化了与主流云厂商的合作生态,除了在基础产品层面的合作,深度打通并融入了每一家云厂商的数据库和大数据产品栈,我们也在进一步构建了面向全场景的一体解决方案。 例如我们与亚马逊云科技团队共同构建 Serverless 数据湖仓架构方案,和 Redshift、Athena 等一起服务国内客户和出海客户的实时数据分析场景,支持客户全场景数据分析。我们也与腾讯云存储团队共同构建云原生湖仓一体产品,打通数仓与对象存储之间的高速公路,围绕互联网、自动驾驶、金融、制造业等行业中的驾驶舱分析、用户画像行为分析、业务日志分析等场景,提供存算分离、高性能、高性价比的解决方案,提升业务生产效能。 2023 年 3 月在阿里云瑶池数据库峰会上,飞轮科技与阿里云正式达成战略合作协议,双方共同研发名为“阿里云数据库 SelectDB 版”的新一代实时数据仓库,为用户提供在阿里云上的全托管服务。经过 5 个月的共同努力,阿里云 SelectDB 的首个版本已于 8 月 20 日正式上线,用户可以在阿里云上便捷地使用 SelectDB 数仓服务,以满足海量数据极速实时、融合统一、简单易用的分析处理需求。

连林江演讲-与阿里云战略合作.png

我们也欢迎更多的云合作伙伴来和飞轮科技深度合作,发挥双方优势共建实时、湖仓融合、并完全云原生化的数据服务,为客户提供最极致的价值。飞轮科技也非常乐意跟领域内的产品和方案友商进行深度的合作,共同构建现代数据栈、服务国内外广泛的客户。 全新的技术内核,全新的产品图景。我们始终坚信技术的力量可以帮助我们持续革新产品、构建更加现代化的实时数据仓库产品,也将为客户不断创造价值、为行业注入新的活力,更将会带领我们走向卓越。相信在所有客户和合作伙伴的帮助下,这一目标终将实现!