博文视点
当DeepSeek等大模型掀起生成式AI浪潮,数据基础设施正面临三重变革:数据规模从TB级跃迁至PB级、分析时效从离线走向实时、处理对象从结构化拓展至多模态。
云原生数据仓库凭借弹性架构与智能内核,通过存算解耦实现资源动态编排,借助优化器突破”存储墙”效能瓶颈,成为支撑大模型训练推理的关键基座。
国际顶级咨询机构Gartner预测,至2026年75%的AI系统将依赖云原生数据湖仓进行特征工程。
一、智能进化:从规则驱动到AI赋能
云原生数据仓库利用启发式规则或者机器学习技术来诊断数据仓库在数据建模、数据准备、库表结构设计和数据查询分析等各个环节中存在的可优化点并给出优化建议,并通过自动化处理、分析和可视化展示,提供更自动化和更智能的数据管理和分析解决方案。除了智能化优化数据仓库性能,还会考虑用户的财务成本及不同资源每时每刻的不同价格,因此可以智能化地选择资源以降低用户成本,并加强数据安全和隐私保护。
由于数据查询分析的规模越来越大、复杂度越来越高,库表结构设计的优化对降低数据仓库的存储成本和查询性能有巨大影响。云原生数据仓库可以利用具备深度思考能力的大语言模型(如DeepSeek-R1)可通过多环节优化数据仓库建设流程。在数据建模阶段,其强大的逻辑推理能力可自动解析业务需求,结合历史数据特征,帮助设计人员快速构建符合业务逻辑的数据模型。库表结构设计方面,模型基于深度计算能力,能分析数据分布特征并推荐最优范式等级,自动生成兼顾查询性能与存储效率的DDL语句,同时提供索引策略建议。
在数据查询分析环节,用户可通过自然语言描述需求,模型即时生成优化后的SQL语句,并结合查询计划分析提出性能调优方案,其代码生成准确率较传统方法提升显著。通过强化学习自主进化的特性,模型还能持续吸收数据治理经验,形成闭环优化机制,为数据仓库全生命周期提供智能支持。
如图1所示,云原生数据仓库为了诊断用户的SQL 查询分析代码的性能问题,会记录用户执行的每个查询语句的具体情况,如每个查询语句的执行时间、各个阶段和各个算子所消耗的内存、网络和磁盘资源,以及耗时程度和并发度等。
图1 数据仓库的信息化与智能化
二、弹性革命:Serverless架构重塑资源范式
传统的联机分析处理软件是企业自己部署运行的,企业需要维护自己的物理硬件,并在上面安装软件,为了应对突发的高峰时刻,通常要准备较大规模的集群来提供高可用机制。因此,这种企业自己部署数据仓库的方式维护成本高、资源利用率低,难以做到弹性伸缩。弹性与Serverless 是云服务厂商为了解决企业的上述痛点而推出的一种按需付费的云服务,现在大多数的数据仓库通过部署在云上以提供弹性与Serverless 功能。
数据在企业中的使用,具有明显的周期性和不确定性。一方面,业务发展变化很快,其数据规模体量也变化很大;另一方面,有些业务具备很强的时间周期特点,平时空闲,高峰明显。这些特点对底层基础设施提出了极高的资源弹性要求。这里所说的弹性,既包括存储能力的弹性,也包括计算能力的弹性。如图2所示,用户可以根据自身的需求,灵活选择资源配置方式
图2 弹性与Serverless
以千亿参数大模型训练为例,数据供给层对云原生架构提出了多方面核心需求,例如:算力集群需要支持千卡级动态扩展能力,满足百亿至千亿参数模型训练时线性增长的并行计算需求,这要求云平台具备细粒度资源调度和弹性伸缩能力。数据预处理流水线需实现自动化编排,集成数据质量检查、多源异构数据融合等功能,以应对日均PB级数据吞吐量,这需要云原生架构提供高吞吐分布式存储与计算资源池化能力。
三、架构突围:AnalyticDB的国产化创新实践
云原生数据仓库AnalyticDB MySQL 版是阿里巴巴自主研发、经过超大规模及核心业务验证的PB 级实时数据仓库。
尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...
时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...
如题 ...
读者评论