博文视点Broadview
以下文章来源于深蓝AI ,作者梁松
深蓝AI .
专注于人工智能、机器人与自动驾驶的学习平台。
编辑|梁松
DeepSeek 新论文来了!创始人梁文锋挂名并由他直接(亲自)提交,可见DS对这篇论文的重视!
NSA(Native Sparse Attention)为新型稀疏注意力机制。通过针对现代硬件的优化设计,NSA 可以加快推理速度,同时降低预训练成本,而不会影响性能。
那么,NSA是如何实现解码速度提高11.6倍,前向传播、反向传播分别加速 9.0 倍和 6.0 倍的呢?
论文标题:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
论文链接:https://arxiv.org/abs/2502.11089
DeepSeek NSA机制的核心优势
近年来,可以说AI领域针对长上下文能力的研究从未止步。毕竟不夸张的说,长上下文能力正是下一代AI的核心需求,比如理解整本名著、万行代码、或者进行多轮对话等等。
但是,传统注意力机制(类似“逐字比对”)计算量爆炸增长,像处理6万字符时,70%的时间浪费在了重复计算上。
现有优化方案,比如像缓存筛选、局部计算等,虽然能降低理论复杂度,但存在两大缺陷:
实际加速不达预期:硬件适配差,理论省时50%,真实场景仅快10%。
训练支持不足:多数方法只能优化推理,无法从头训练模型。
而稀疏注意力,则为提高效率同时保持模型功能提供了一个有前途的方向。基于此,本次DeepSeek团队提出一种面向硬件的原生可训练的稀疏注意力机制——Natively Sparse Attention(简称NSA)。
(下图为Full Attention 模型与NSA的性能对比图)
(图|左:尽管稀疏, NSA 在一般基准、长期上下文任务和推理评估方面平均超过了全神贯注基线。右:对于 64k 长度的序列处理,与 Full Attention 相比,NSA 在所有阶段都实现了显著的计算速度。)
NSA通过算法-硬件协同创新,以实现高效的长上下文建模。其核心创新可以总结为以下几点:
算法设计:
动态分层:全局压缩(快速定位关键段落)+局部精选(保留细节),类似“智能速读”。
硬件适配:计算步骤完美匹配GPU特性,避免现有方法“理论省时50%,实际仅快10%”的缺陷。
训练兼容性:支持端到端训练,预训练阶段即可优化稀疏模式,而非事后打补丁。
(图 |NSA 架构概述)
左图:框架通过三个并行的注意力分支处理输入序列:对于给定的查询,前面的键和值被处理为粗粒度模式的压缩注意力、重要标记块的选定注意力和本地上下文的滑动注意力。
右图:每个分支产生的不同注意力模式的可视化。绿色区域表示需要计算注意力分数的区域,而白色区域表示可以跳过的区域。
动态分层稀疏策略:
NSA 采用动态分层稀疏策略,将注意力计算分为了粗粒度Token压缩、细粒度Token选择、滑动窗口机制三个分支。
这种分层设计的优势就在于,既能保留全局长距离依赖的捕捉能力(如文档级语义),又能优化局部精细信息的处理效率(如代码语法或对话连贯性)。
通过两项关键创新推进了稀疏注意力设计:
(1) 通过算术强度平衡算法设计实现了大幅加速,并针对现代硬件进行了实现优化。
(2) NSA支持端到端训练,在不牺牲模型性能的情况下减少训练前计算。
不难看出,NSA的核心优势在于其原生稀疏注意力机制,通过算法与硬件的协同设计,在实现端到端可训练性的同时,将稀疏计算效率提升至硬件理论极限。
NSA机制实验核心结果与行业价值
NSA 在解码、前向传播和后向传播的 64k 长度序列上实现了比 Full Attention 更大的加速,验证了其在整个模型生命周期中的效率。具体数据结果如下:
1、性能测试结果
通用任务:在9项基准测试中,NSA在7项(如数学推理GSM8K、代码生成HumanEval)超越全注意力模型,证明其”智能过滤噪声”能力。
长文本处理:
64k长度检索:NSA实现100%准确率(全注意力仅85%),因分层机制(全局扫描+局部精读)兼顾效率与精度。
复杂推理任务:在需多步逻辑推导的任务中,NSA比全注意力模型准确率提升5%-8%。
2、速度对比
训练阶段: 64k文本处理时,前向计算快9倍,反向传播快6倍,因硬件级内存优化(类似“快递装箱”减少无效搬运)。
推理阶段: 64k文本解码提速11.6倍,因内存读取量减少至全注意力的1/10。
(图|随着解码长度的增加,NAS表现出延迟显着减少,在 64k 上下文长度下实现了高达 11.6× 的加速。内存访问效率的这种优势,也会随着序列的延长而放大。)
NSA机制的行业价值主要可以体现为以下2点:
成本降低:训练64k长文本模型,算力消耗减少30%。
应用扩展:使手机等设备运行长文本AI(如医疗记录、整本小说分析)成为可能。
长上下文建模领域的重要里程碑!
“缺卡”VS“省卡”
NSA解决了传统稀疏注意力机制在动态性、硬件适配性和训练效率上的短板,成为长上下文建模领域的重要里程碑。同时,NSA的突破也标志着稀疏注意力机制从理论优化迈向工程化落地,如长文本场景扩展、低资源部署以及跨领域的应用。
核心来说:NSA 技术让模型在计算注意力时, 不再需要关注所有信息,而是只关注最重要的部分,这样一来就大大减少了计算量。
估计各位同仁看完,也明白了前面为什么会提出这样一个开放探讨的问题:“NSA是否是“缺卡”的无奈之举?”
众所周知,当下尤其是国内受制于算力资源(尤其是GPU显存)的物理限制。
而像大模型训练则常需要数百甚至数千张GPU卡,高昂成本迫使研究者寻找“省卡”方案。NSA的稀疏计算,正是“低资源环境下的高效替代”。
NSA的诞生是否反映了AI发展的现实妥协?
我个人认为,短期来看:在硬件算力未突破性提升前,可以通过算法优化挖掘现有硬件潜力;长期来看:即使未来算力充足(如量子计算普及),NSA的能效比优势也将仍具价值(如边缘设备、实时系统)。
或许,就像是“燃油车时代研发混动技术”——既因油价高昂,也为未来电动化过渡而铺路。
Ref:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
论文链接:https://arxiv.org/abs/2502.11089
相关图书推荐
▊《强化学习(第2版)》
【加】Richard S. Sutton(理查德·桑顿) 【美】Andrew G. Barto(安德鲁·巴图)著
强化学习领域奠基性经典著作!
人工智能行业的强化学习圣经!
在第2版中,随着强化学习近来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益最大化……涵盖了当今最关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。
▊《大规模语言模型:从理论到实践》
张奇,桂韬,郑锐,黄萱菁 著
复旦NLP团队新作
从0分享研发MOSS大语言模型的实践经验
本书详细介绍了构建大语言模型的四个主要阶段:预训练、有监督微调、奖励建模和强化学习。每个阶段都有算法、代码、数据、难点及实践经验的详细讨论。
▊《高效深度学习:模型压缩与设计(全彩)》
汪玉 宁雪妃 著
高效模型压缩与设计,释放大模型潜能,赋能千行百业
清华大学电子工程系汪玉宁雪妃作品
本书系统地介绍了高效模型压缩和模型设计的方法,在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论,包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外,简要介绍了定制化硬件加速器的设计及大语言模型的加速和压缩。
▊《深度神经网络高效计算:大模型轻量化原理与关键技术》
程健 著
破解计算复杂度难题,聚焦运行效率
业界泰斗马颂德、周志鑫院士盛赞
本书围绕深度学习模型计算,重点从深度学习模型优化、算法软件加速、硬件架构设计等方面展开介绍深度学习高效计算。
▊《零基础开发AI Agent:手把手教你用扣子做智能体》
叶涛 管锴 张心雨 著
无须编程,采用可视化设计,即使不懂编程也可以快速开发AI Agent
5 大使用场景,11 个精选Agent开发案例,图文并茂,边学边练
让你零基础入门开发单Agent和多Agents
本书能帮助你系统并且轻松地掌握Agent从概念到实操的相关知识、技能和方法,让你在AI时代更好地适应工作和生活。
尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...
时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...
如题 ...
读者评论